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à, AUI 3‏ 
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coU sadi‏ اللغرية ia pH‏ 
تحشية المدونات اللغوية 
ترميز المدونات اللغوية 
idea‏ المدونات اللغوية 
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تحول الاقتصاد العا مي منذ ثانينيات القرن العشرين من اقتصادٍ صناعي إلى ما 
يعرف باقتصاد المعرفة؛ وذلك بصفته نتيجة طبيعية للاستئارات الكبيرة cA‏ 
البحث العلمي والتطبيق. الأمر الذي جعل المنتج الاستراتيجي الأبرز لأي أمةٍ هو 
المعرفة التي لا يمكن تناقلها إلا من خلال لغةٍ تحمل رسائلها عبر الأجيال والثقافات 
المختلفة. 

ووفرت التكنولوجيا الحديثة» وعلى رأسها الإنترنت» في تسعينيات القرن الماضي 
MI‏ الخصبة لنمو إنتاج اللغة بمعدلاتٍ o aa‏ غير معهودة» حتى أصبحت السوق 
هي العالم بأسره. الأمر الذي أدى إلى إنتاج عشرات الآلاف من الوثائق التي تحمل 
لغات العالم في كل دقيقة. وقد صاحب ذلك كله إضافة قدر من التعقيد على الصورة 
التي توجد عليها نصوص هذه اللغات» وجعلها متنوعة بشكل كبير. SUN DUNT‏ 
أبعادٌ جديدة cole p‏ كثيرة» ag E‏ رسا رمات Boti‏ 


فأصبح الباحث GU‏ خضم هذا الزحام وهذا التنوع. 
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وقد تنبه العام إلى خاطر اتساع الفجوة بين فيض النصوص والمعلومات هذاء وبين 
إمكانية تنظيمه والتحكم فيه. وهي فجوةٌ تعاني منها الكثير من لغات العالم» ولاسي| 
اللغة العربية. حتى باتت قضية تطويع التكنولوجيا الحديثة لخدمة اللغة العربية واحدة 
من أهم القضايا الأكثر إلحاحًاء التي يتحتم تناولها ومعالجتها على النحو الذي من شأنه 
أن يرأب الصدع بين ما يتم إنتاجه من لغةٍ وبين إحكام السيطرة عليه. 

ونحن أبناء اللغة العربية يتعين علينا المحافظة عليها بكافة السبل الممكنة؛ حتى تظل 
قوية في مواجهة تحديات وصراعات العولة. وحتى لا تنسى أو تضيع ESS‏ من اللغات 
الأخرى. ولعل من أبرز السبل التي يمكن حذوها رصد واستكشاف كل ما من شأنه 
أن يحفظ ويعالج ويتيح لغتناء با تحويه من نصوص ومعلوماتء وبا يلبي احتياجاتناء 
على اختلاف مستوياتها وأنواعهاء بالسرعة والسهولة المطلوبتين. غير أنه من الصعب 
جدًا أن نُعَوّل على الأدوات والطرق التقليدية التي يستحيل معها متابعة هذا الخضم 
الهائل من النصوص والمعلومات. ومن هنا دعت الحاجة إلى تطويع التكنولوجيا الحديثة 
للمعالجة والتطبيق مستفيدة ما توفره إمكانات العصر من تقنياتٍ وبرمجيات. 

dee 3‏ المدونات اللغوية [Language or Textual] Corpora‏ أحد السبل التى 
استفادت كثيرًا من التكنولوجيا الحديثة. وعلى الرغم من أن فكرة المدونات اللغوية 
قائمةٌ منذ آلاف السنين» إلا أن التكنولوجيا الحديثة أحيّتها من جديد. وأصبح هناك 
اهتمامٌ متزايدٌ في الآونة الأخيرة بمثل هذا المصدر من مصادر المعلومات. 

فبعد أن كانت عمليات إنشاء وإتاحة المدونات اللغوية تشكل Ée‏ وجهدًا كبيرين؛ 
U‏ تتطلبه من فرق عملء إضافة إلى الصعوبة البالغة في جمع البيانات الخام من آلاف 
النصوص- أصبحت هذه العمليات سهلة المنال نسبيًا بفضل التوجه السائد نحو 
رقمنة نصوص مصادر المعلومات الأولية ونشرها كي تصبح جزءًا من قواعد البيانات 
وق الشيكة الكو هة 
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وسوف نحاول في هذا الكتاب» قدر الإمكان» أن نقدم لمدى إمكانية تطويع 
التكنولوجيا الحديثة لخدمة اللغة العربية باستخدام المدونات اللغوية. وذلك من خلال 
التعريف ببذه الأداة التقنية» والتحقق من أوجه الإفادة منها في مجحالات المعرفة المختلفة. 
ويقع الكتاب في خمسة فصول؛ ينصب الفصل الأول على ماهية وأهمية المدونات 
اللغوية. حيث يتم التحقق من هذا المصطلح ومفهومه؛ مع إلقاء نظرةٍ تاريخية على 
بدايات نشوء واستخدام المدونات اللغوية» ثم يتم تناول تميزات ومواصفات المدونات 
اللغوية» - الفصل بالأسئلة التي يمكن أن تجيب عنها المدونات اللغوية» وما لم 
يمكن أن تجيب عنه. 

C‏ يتناول الفصل الثاني المدونات اللغوية بصفتها Bl‏ بحثية ومقاربة منهجية. وفي 
هذا السياق يتم تسليط الضوء على مجالات الإفادة منها في كل من: علم اللغة» وتدريس 
colt Mg cll‏ راه gl eh i celi‏ جات 
الفكرية (الأيديولوجيا»» وعلم المعلومات» وصناعة المكانز» والمعلوماتية الجنائية. كا 
يتناول الفصل مراحل إنشاء المدونات اللغوية وأساليب تطويرهاء وأنواعها المختلفة 
(مدونات لغويةٌ اختبارية» ومدونات لغوية بحثيةء ومدونات لغوية تعليمية)» وكيفية 
استثارها منهجيًا. 

بينا يختص الفصل الثالث بمعالجة البيانات Sel‏ على المدونات اللغوية. ويتطرق 
الحديث في هذا الموضوع إلى عمليات معالحة البيانات على مستويين؛ مستوى الإدخال» 
ومستوى الإخراج. ويتضمن المستوى الأول ترميرٌ المدونات اللغوية» وتحشية المدونات 
اللغوية التي تؤدي دورًا كبيرًا في تحليل النصوص؛ ولذا سلط المؤلف الضوء على هذه 
العملية الفنية في ضوء تعريفهاء وأهميتهاء والنقد الموجه لهاء وطرائقهاء وأنواعها 
المختلفة التي تشمل: وسم أقسام الكلم» وتجريد الكلات» والتحليل «abe‏ 
والتحشية الدلالية» وتحشية المصاحبة المرجعية» والتحشية البراجماتية أو التداولية» 


-1١4- 
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والتحشية الأسلوبية» ووسم الأخطاء. والتحشية الموجهة نحو المشكلات» والتحشية 
المتضّمنة» والتحشية القائمة بذاتها. بيدا يشتمل المستوى الثاني تكشيف الكلمات» 
وتكشيف النصوصء وتكشيف الكلات المفتاحية في السياق» والمشكلات الفنية في 
تكشيف المدونات اللغوية» والمشكلات اللغوية في تكشيف المدونات اللغوية» وقوائم 
تردد الكلمات» وتوليد الكلمات المفتاحية» وتحليل التجمعات العنقودية. 

ويقدم الفصل الرابع نماذج فعلية للمدونات اللغوية المعتهدة على الشبكة العنكبوتية 
في إتاحتها وتقديم خدماتها. مع إبراز العربية منها قدر الإمكان. ومن بين هذه الناذج: 
المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنيةء والمدونة اللغوية التاريخية 
للجامعة الأردنية» والمدونة اللغوية العربية الدولية لمكتبة الإسكندرية» ومدونة عربي 
كوريّصء والمدونة اللغوية لمتعلمي اللغة العربية» والمدونة العربية القرآنية» ومدونة 
قرآني» واستقصاء المدونات اللغوية العربية» وسكتش إنجين» ومدونة كوكاء والمدونة 
اللغوية لكتب جوجلء والمدونة اللغوية للأخبار على الشبكة العنكبوتية (ناو). كا يقدم 
الفصل أشهر البرمجيات التي تعالج وتحلل المدونات اللغوية العربية» ومنها: برنامج 
col ol‏ وورد سميث WordSmith Tools‏ وبرنامج أدوات معالجة المدونات اللغوية 
العربية. 

أما الفصل الخامس والأخير فيتعرض لدراسات استخدام المدونات اللغوية من 
خلال مراجعةٍ علميةٍ للإنتاج الفكري السابق حول الموضوع. مع التركيز على العربية 
فقط في معظم الأحيان. ويتناول هذا الإنتاج الفكري دراسات إنشاء وإتاحة المدونات 
اللغوية العربية» ودراسات الإفادة من المدونات اللغوية العربية في علم اللغة التطبيقي 
(في النحو والدلالة» وني علم اللغة الاجتاعي» وني صناعة المعاجم» وفي الترجمة» وفي 
تحليل التوجهات الفكرية)» ودراسات استخدام المدونات اللغوية العربية في صناعة 
المكانز» وفي استرجاع المعلومات» وفي المكتبات. 


حاو الات 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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وبعد» فإننا pb‏ أن ينتفع الدارسون» وعلاء اللغة» وعلماء المعلومات» وكافة 
الباحثين المهتمين بالمدونات اللغوية في شتى فروع المعرفة البشرية من هذا العمل 
المتواضع. 
والله من وراء القصد».»» 


الدكتور أيمن الدكروري 


جدة 


YA [cn 9‏ م 


=y j= 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EN‏ ااا 


الفصل الأول 


المدونات اللغخوية: الماهية والآهمية 


التمهيد 

المدونات اللغوية: المصطلح والمفهوم 

المدونات اللغوية وقواعد بيانات النصوص 

نظرة تاريخية 

أهمية المدونات اللغوية 

مميزات المدونات اللغوية 

المواصفات العامة للمدونات اللغوية 

الأسئلة التى يمكن أن تجيب عنها المدونات اللغوية 
الأسئلة التي لا تجيب عنها المدونات اللغوية 
الخلاصة 


-yý- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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التمهيد 


لا يمكن لنظم استرجاع النصوصء وما تشمله من أناط وأساليب مختلفةٍ للمعالجة 
الآلية للغة الطبيعية» أن تؤدي مهامها بكفاءة» أو أن تتقدم وتفتح لنفسها مجحالات تطبيق 
متنوعة» دون أن يتوافر لها وقودٌ خامٌ من مليارات البيانات يحرك هذه النظم» ويساعد 
الباحثين في الوصول إلى ما تحويه من مصطلحاتٍ وكلماتِ» وفهم وتحليل ما بينها من 
علاقاتِ» ليصبح هذا الوقود الخام مع الوقت مستودعا للذاكرة» ومصدرًا متدفقا 
للغة والمعلومات. وقد تجسد هذا الوقود الخام عمليًا C$‏ يعرف ب «المدونات اللغوية» 
Textual or Language Corpora‏ التى تعتمد في عملها على قوة الحاسبات الآلية à‏ 
الاختزان» وقدرات البرمجيات المختلفة في التكشيف» والتحليل» والاسترجاع. 

ويستخدم مصطلح «المدونات اللغوية» للدلالة على أي رصيدٍ ضخم من النصوص» 
المكتوبة أو المنطوقة أو كلتيهماء ؛ التي يتم تجميعها بطريقةٍ عشوائية أو منظمةٍ من مصادر 
النصوص المختلفة» ومن ثم يتم اختزانها في الحاسب الآلي لأغراض استرجاع 
المعلومات والرد على الاستفسارات وما شابه. إذن فالمدونات اللغوية تحوي نصوصًا 
تعكس Je YI‏ حبني أو الواقعي äl authentic‏ في machine- Û $e JS‏ 
readable‏ تؤخذ عينة Aur a‏ لمجال معين» أو لأوعية cladis‏ بعينهاء كالكتب» أو 
الدوريات العلمية» أو الصحفء أو المراجع... إلخ. وقد odd‏ بهذه النصوص e‏ 
marking-up‏ بإضافة حقو ل ميتاداتاء أو تحشية «annotation‏ أو و سم tagging‏ 
eque nh yl)‏ ۰۲۰۰۳ ص ص (VA-VA‏ 


—-Yo- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n———————————U"‏ 


والمدونات اللغوية جمع مدونة لغوية؛ وهي في أبسط معانيها عبارةٌ عن ie pat‏ مكونة 
من وثيقتين أو أكثر Khosrow-Pour, 2015, in Encyclopedia of Information)‏ 
(Science and Technology, third edition, p. 4151‏ . 

والنصوص کا يعرفها معجم لونجإان لتدريس اللغة وعلم اللغة التطبيقي 
she (Richard & Schmidt, 2002, p. 549)‏ عن لغة منطوقة أو مكتوبة تتسم 
بالخصائص التالية: 
uu Qu apad‏ ل 

طا أو ا Miss 4d‏ وعلى الرغم من ذلك فإن الكلمة الواحدة 7 تعتبر نصّاء 

quce ا روفي‎ sius Dinge tuae 
Jes aas اماع فكاع‎ 
تؤدي وظيفة أو غرضًا تواصوليًا محددًا.‎ .۳ 
من خلال علاقتها بالسياق الذي تحدث فيه.‎ DU تفهم‎ .5 

والنصوص في نظر دائرة المعارف الدولية لعلم المعلومات والمكتبات هي مجموعة 
NET‏ من الكلمات التي قد تكون s‏ أو dos‏ أو قائمة من الكلماتء كا في 
الكشافات» أو عباراتٍ قصيرةء وليس من الضروري أن تكون منتظمة نحويّاء كما هو 
الحال في الشعارات الدعائية» oos‏ تكون أيضًا أرقامًا أو رمورًا شفهية Feather &) à‏ 
.(Sturges, 2003, p. 633‏ 

ونا كانت اللغة أو NP‏ غل وجه الخضصوضء» إما أن تكون مكتوبة أو 
eda ulace‏ انت أيكا coU Sall‏ اللكرية عل هذا الجر دومن عة ذلك X glo‏ وجرن 
للإنجليزية النيوزيلاندية المكتوبة The Wellington Corpus of Written New‏ 
«Zealand English (WWC)‏ ومدونة ويلنجتون للإنجليزية النيوزيلاندية المنطوقة 
The Wellington Corpus of Spoken New Zealand English (WSC)‏ 
الصادرتان عن جامعة فيكتوريا ويلنجتون بنيوزيلاندا Corpora at Victoria)‏ 
(University of Wellington, 2013‏ 

وتذكو EI oos E tel NEZ dures 1f‏ 
على الشبكة العنكبوتية» مثل المدونة اللغوية لمتعلمى اللغة العربية Arabic Learner‏ 
95 التي يقوم عليها الباحث عبد الله الفيفي» العف بجامعة الإمام محمد بن سعود 


cA 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EE NN‏ ^ 


الإسلامية» المملكة العربية السعودية. وقد تكون المدونات اللغوية متاحة بمقابل مادي» 
مثل سكيتش إنجين Sketch Engine‏ التي تتبح أيضًا الوصول إليها لفترة Leda i.d‏ 
ثلاثون يومًا. كا تتاح بعض المدونات اللغوية من خلال تسجيل البيانات للحصول 
على حساب استخدام ue‏ مثل مدونة e‏ 4( كوريّص arabiCorpus‏ الصادرة عن 
جامعة بر جهام ينج الأمر يكية Brigham Young University arabiCorpus: the‏ 
.(Arabic corpus for the rest of us‏ 

(e ~‏ بالذكر أن جميع الأمثلة المذكورة هنا للمدونات اللغوية قائمة أو معتمدةٌ على 
الشبكة العنكبوتية Web-based‏ 


المدونات اللغوية: المصطلح و خيرم 

كلمة AG (corpus?‏ لاتينية i‏ تعنى الجسد body‏ و corpuses Í corpora pe‏ 
.(Pearce, 2006, p. 45)‏ ولكلمة (corpora)‏ مقابلاتٌ TE‏ في العربية» منها: المدونات 
اللغوية» والذخائر النصية (الربيعةء السلان © إيريك» CAE‏ والذخائر اللغوية 
(ميدار: المشروع المتوسطي لتقنيات اللغات العربية المكتوبة والمنطوقة)» والمكتنزات 
النصية» والمتون اللغوية (حمادة» QI‏ وغيرها مما ذكر في مصادر غير أكاديمية» مثل: 
السات والمجموعات النصية» والمخزونات النصية... إلخ. 

والمدونات اللغوية في حقيقة أمرها عبارة عن رصيدٍ ضخم من النصوص المكتوبة 
أو المنطوقة التي يتم اختزانها على الحاسب الآلي. وتعد الوثائق المنشورة في أحد 
فروع المعرفة مصدرًا رئيسًا للمدونة اللغوية» حيث تؤخذ الكلمات من العناوين» أو 
المستخلصاتء أو الفقرات» أو النص الكامل؛ تمهيدًا لا سيتم عليها من JA‏ كمي 
ونوعي )27 (Schneider, 2004, p.‏ . وقد يتم تجهيز هذه النصوص ووضعها في شكلٍ 
format‏ معين يسمح بتعاملها مع أدوات الببحث» وكذلك يسمح بعرض نتائج البحث 
فيها على نحو يكفل قراءتها بسهولة ويسر من قبل اختصاصبي المعلومات» واللغويين» 
والمدرسين» والطلاب» والمستفيدين. وفي هذه المرحلة يمكن طرح المدونات اللغوية 
كونها منتجًا يتم الاستفادة منه في مجالاتٍ ciae‏ كل وفق احتياجاته )& Al-Sulaiti‏ 
.(Atwell, 2006, p. 5‏ 
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والمدونات اللغوية في حد ذاتهاء حتى هذه المرحلةء لا تقدم شيئًا مطلقا أكثر من 
ley Lus‏ أو وسيطًا إلكثرونيًا لاختزان اللغة أو النصوص بصفتها بياناث خامًاء إلى 
أن GU‏ مرحلةٌ لاحقةٌ يتم فيها تشغيل بعض البرمجيات على هذه البيانات. وبمقدور هذه 
البرمجيات إعادة تنظيم وترتيب هذه البيانات. ومن ثم يتم عمل مجموعةٍ من التحليلات 
الإحصائية النظمية والدلالية عليها؛ بهدف فحص كل مصطلح أو كلمةٍ مفتاحية من 
حيث سماتها أو تركيبتها المعرفية واللغوية» وما يرتبط بها من كلماتٍ تسبقها أو تلحقها. 
الأمر الذي يسهم بشكل كبيرٍ في الصياغة (Jl‏ للمصطلحات» ورؤوس الموضوعات» 
والواصفات» وعبارات البحث» df‏ كم يعكس الاستخدام الفعلي أو الواقعي 
«U authentic‏ وبعيدًا GU‏ عن Ne al igl‏ ويمكن بالتالي تقديم معلوماتٍ عن 
النصوص على النحو الذي يلبي احتياجات المستفيدين بدقةٍ وكفاءة. وخلاصة القول 
أن المدونات اللغوية لا توفر معلومات عن النصوصء ولكن البرمجيات التى تعمل 
عليها هى التى تتولى ذلك )3 .(Hunston, 2002, p.‏ 


المدونات اللغوية وقواعد بيانات النصوص 

قد يتخلط البعض بين المدونات اللغوية ael‏ بيانات النصوصء أو نظم استرجاع 
النصوص» إلا أن الأخيرين لا OWK‏ على مفهوم و إذ Le]‏ 
يوحيان بأن المقصود هو قاعدة بيانات oy‏ ہا بياناتٌ مكتوبةٌ written data‏ » قد 
تكون ا 
من قبل المستفيدين. وتكون sle‏ هذه النتائج في صورة إشارات بعناوين مصادر 
cote sat‏ غيل البلكين إل vo pa‏ الأصلية, 

غير إن المدونات اللغوية يتم بناؤها EF‏ لأساس منطقي cas rationale‏ كأن تكون 
المدونة اللغوية للإنتاج الفكري في علم اللغة فقط» أو في علم المعلومات فقطء أو في 
أي Jue‏ آخر» أو مجموعةٍ من المجالات المتتظمة والمصنفة داخل المدونات اللغوية. كا 
أنه قد يحتزن بها نصوصٌ مكتوبةٌ إضافةً إلى نصوص منطوقة (ES)‏ فضا عن أن 
البحث في المدونات اللغوية يتم بكلمة أو عبارة , بحثِ» فتسترجع النتائج التي تشتمل 
عل هذه الكلمة أو العبارة في سياقاتها الطبيعية (تكشيف التصوص)» دون ضرورة إحالة 
المستفيدين إلى النصوص الكاملة لمصادر المعلومات في الغالب. ونضيف إلى ذلك أن 


—YA-— 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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المدونات اللغوية تتيح عادة إمكانات استرجاع غير متوافرة في قواعد بيانات النصوص 
أو نظم استرجاع النصوص؛ مثل قوائم تردد آلكلمات» واشتقاق (أو توليد) الكلمات 
المفتاحية» وعرض الأشكال المختلفة لكلمة البحث» وعرض الكلمات التي تتلازم أو 
تتصاحب عادة مع كلمة أو عبارة البحث. الأمر الذي يفيد كثيرًا في إجراء وتنفيذ الكثير 
من الدراسات والمشروعات المختلفة» CS‏ سيتضح تباعًا (المالكي» ٠۲٠٠۹‏ ص ص 5-0). 

ومن الممكن النظر إلى المدونات اللغوية كونها مُكونا رئيسًا تعتمد عليه نظم استرجاع 
النصوصء أو نظم استرجاع المعلومات بوجو عام ؛ سواءٌ في مراحل إنشائهاء أو مراحل 


اختبارها قبل طرحها للمستفيدين. وسيتم توضيح هذا الأمر عند الحديث عن الإفادة 
من المدونات اللغوية في علم المعلومات» ومعالجحة اللغة الطبيعة للنصوص 
5 
iz Us‏ 


ارت PUER‏ اللضوض DENS ENNIUS NER‏ 
السابع والثامن للميلاد» ومن قبلها النصوص ini‏ للتوراة Borko & Bernier,)‏ 
8. وكذلك النصوص التاريخية» مثل لفافات البحر الميت التي تعد من أهم مصادر 
تاريخ فلسطين (قاسم» n‏ ص ۲۲). 

وربا تعود أول iale‏ لإنشاء مدونةٍ لغوية متخصصة اعتمادًا على الحاسب الآلي إلى 
الأب روبرتو بوسا Roberto Busa‏ حين) قام بتجميع يع أعمال القديس توما Vr‏ 
Thomas Aquinas‏ في عام 4 وتكشيف TE‏ باستخدام أجهزة البطاقات 
.(Winter, 1999) i zil‏ 

بينم| تعود أول محاولةٍ لإنشاء مدونةٍ ga)‏ 3 عامة باستخدام الحاسب الآلي إلى الباحثين 
كيوسيرا Kucera‏ وفرانسیز Francis‏ عام ١‏ حين] قاما بإنشاء مدونة لغوية لأكثر 
من مليون كلمة (هيكل (token VIS‏ للغة الإنجليزية الأمريكية. وقد عرفت هذه 
المدونة اللغوية باسم مدونة .Brown corpus Bis‏ وقد اقتصرت بداية هذه المدونة 
اللغوية على تكشيف وحساب تردد الكلمات فقطء إلا أن القائمين عليها قاموا مؤخرًا 
بوسم أقسام كلاتبا (Francis & Kucera, 1979) Part-Of-Speech tagging‏ ثم 
توالى بعد ذلك إنشاء الكثير من المدونات ec o MER AE‏ التي منهاء على سبيل المثال 


-١‏ هي سلسلةٌ من الحروفء أو التمثيلات» أو كلتيهماء يسبقها فراعٌ ويتبعها فراغٌ. 


xA 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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لا الحصرء المدونة اللغوية الوطنية البريطانية «British National Corpus (BNC)‏ 
والمدونة اللغوية الوطنية الأمريكية «American National Corpus (ANC)‏ 
NUIT‏ 

d الاو خا کا اهو تقال‎ zo MI Jue SU d ad oU aa LA اة‎ us 
A concordance to the poems of Matthew نصوص أشعار ماثيو أرنو لد‎ US 
Mo ele Cornell ونشر ته جامعة كورنيل‎ «S. M. Parrish الذي أعده باريش‎ Arnold 
وكشاف نصوص أعمال ولیم شكسبير‎ (A07 AE ص ص‎ 7٠٠١ (عبدالهادي و زايد»‎ 
في‎ Complete and Systematic Concordance to the Works of Shakespeare 
QY عام ۱۹۷۰ (قاسم» ۰۲۰۰۰ ص‎ 

وعلى الصعيد العربي» رب| تعود فكرة تجميع النصوص إلى النحاة الأوائل الذين 
استنبطوا ووضعوا قواعد اللغة العربية ومعاجمها اعتمادًا على ما كانوا يجمعونه من نصوص 
عربية» أو ربا ترجع الفكرة إلى تجميع الأعمال الكاملة للمؤلفين CAM ca)‏ ص KON‏ 

GS‏ يرع البعض فكرة تجميع النصوص إلى الجهود الرامية لتوفير مفاتيح أو 
أطراف”“ الوصول للأحاديث النبوية في مظاها في القرن الأول الحجريء على يد ابن 
مرن < ا Re que lS urea Da ca‏ أخرى هن ارس oo sati‏ اف 
دواوين الشعر» وصناعة المعاجم اللغوية» مثل «كتاب العين» للخليل بن Ael‏ - 
6ه- وصناعة معاجم القرآن الكريم. واعتمدت كلها بشکل مباشر عل أسس 
وآليات تكشيف النصوص (عرفات» CY‏ ص ص .)58-0١‏ 

وجديرٌ بالذكر أن المسلمين الأوائل لم يكونوا في حاجةٍ إلى تجميع القرآن الكريم أو 
الأحاديث النبوية الشريفة؛ فقد اعتمدوا في البداية على BUR‏ والرواة. إلا أن الأمر 
d‏ يدم كثيرّاء CY‏ بعد انتشار المصاحف المطبوعة وقلة حفظة القرآن والحديث» 
واستحداث فروع جديدة من المعرفة» فأصبحت الحاجة ملحة إلى تجميع نصوص 
القرآن الكريم والأحاديث النبوية. 

وقد كان لتجميع نصوص القرآن الكريم وتكشيفها منهجان؛ أحدها إسلاميٌ» 
والآخر Goal‏ استشراقيٌ. وربا تعود أول محاولةٍ في هذا الصدد إلى الوردادي حافظ 


-١‏ حيث كان :053 طرف من الحديث للتذكير به أو للدلالة أو للتوصيل إلى بقيته في كتاب من كتب الحديث أو عدة 
كتب منها. 
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إبراهيم» كما أشار إليه إبراهيم الإبياري في الموسوعة الإسلامية» الذي وضع فهرسه 
المعروف باسم «ترتيب زيبا» الذي رتبت فيه آيات القرآن الكريم على dl‏ يخالف 
النهج المعجمي؛ حيث اعتمد على أوائل الآيات. إلى أن جاء حافظ إبراهيم بن مصطفى 
وحاول إعادة النظر في «ترتيب زيبا» وتيسير الانتفاع به؛ فوضع كتابه «(تسهيل الترتيب». 

Ul‏ المنهج الثاني الذي سلكه العرب والمسلمون بشأن تجميع وتكشيف النصوص» 
فقد أخذوه عن المستشرقين. حيث استفاد هؤلاء الغربيون نما يوفره تكشيف النصوص 
من إمكانات؛ فقام المستشرق GUY‏ جوستاف فلوجل بتكشيف نصوص القرآن 
الكريم في كتابه الموسوم «نجوم الفرقان في أطراف القرآن» الذي رتب فيه ألفاظ القرآن 
ترتيبًا ألفبائيًا على حروف المعجم. ثم وضع علمي زاده فيض الله الحسيني كتابه «فتح 
تحت رؤوس موادهاء ثم وضع رمرًا للسور» وترك الكلمات التي يكثر ترددها. 

ثم جاء محمد فؤاد عبد الباقي وسار على نهج فلوجل» وصحح الأخطاء التي وقع 
فيهاء واستفاد من عمل زاده فتجنب استخدام الرموز المعقدة. حيث رتبت ألفاظ 
القرآن الكريم الواردة بالمصحف العثاني ترتيبًا هجائيًا وفقا للمواد اللغوية» وتحت كل 
مادةٍ BUYI‏ المشتقة منهاء ثم رُبطت BUYI‏ بالآيات التي وردت بها ثم أسماء السور. 
وقد خرج هذا العمل بعنوان «المعجم المفهرس لألفاظ القرآن الكريم» في عام £o‏ . 

ومن الجهود الحديثة للاستفادة من المدونات اللغوية «المعجم المفهرس لألفاظ 
حنبل» الذي أشرف على إعداده المستشرق ال مهولندي فنسنك في عام 1975 (قاسم» 
۰ ص ص (Y-Y‏ 


نميزات المدونات اللغوية 
تتسم المدونات اللغوية بمميزاتٍ ciae‏ لعل من أهمها: 

1 الأغقاد بالأساس على zal; g^»‏ أو فعلية authentic‏ وبالتالي فإنها تتيح إمكانية 
التحقق من صحة النتائج المبنية على الحدس أو التخمين في ضوء الاستعمال الواقعي 
للنصوص. وبمعنىّ آخر فإن المدونات اللغوية تجعل الباحثين في موقف يقيني من 
نتائج البحث؛ لأن نتائجها المسترجعة تعتمد بالأساس على نصوص كما وردت بالفعل 


"i 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n———————————————U — 1‏ 


في سياقاتها الطبيعية» كا يستخدمها أبناء اللغة أو أهل التخصص. وبذلك فهي بعيدة 
كل البُعد عن الظن أو البديبة )9-19 l „(Bowker & Pearson, 2002, pp.‏ 

۲. كبر حجم النصوص القابلة للبحث والتحليل. وتحسب الحجم هنا بعدد ASI‏ 
أو بالأحرى هياكل الكلمات tokens‏ التي تحويها المدونات اللغوية. وبقدر الحجم 
OU‏ بملايين الكلمات للمدونات اللغوية العامة. ولكن ذلك قد لا ينطبق بالضرورة 
على المدونات اللغوية المتخصصة )45-48 .(Bowker & Pearson, 2002, pp.‏ 

y‏ التنوع المبني على سس علمية لنصوص المدونات اللغوية لتمثل استخدامات النصوص 
المختلفة؛ وذلك بمراعاة التمثيل الجغراني والتاريخي والنوعي (الأسلوبي مثلا 
للنصوص واستعالاتها المختلفة. غير إن ذلك يعتمد بالطبع على التصميم والاختيار 
الجيدين من قبل معدي المدونات اللغوية )10-11 (Bowker & Pearson, 2002, pp.‏ 


المواصفات العامة للمدونات اللغوية 
من الأمور التي يتعين وضعها في الحسبان عند إنشاء المدونات اللغوية وتقويمها ما يلي: 

ل ل لل يعتمد حجم المدونة اللغوية بشكلٍ أساس على نوع الأسئلة 
التي ee‏ المدونة اللغوية في الإجابة عنهاء والأهداف التي تسعى التحليلاات 
التي تتم على المدونة اللغوية إلى تحقيقها. وبوج عام فإنه & يفضل يفضل الحجم الكبير 
للمدونات اللغوية؛ وخصوصًا إذا علمنا أن الكثير من الكلمات والمتلازمات اللغوية 
تتردد بتكراراتٍ منخفضة )727 (Al-Thubaity, 2015, p.‏ ولا يمكن أن يسهم 
به الحجم الكبير للمدونات في اضطلاع برامج معالجة النصوص بمهامها وتنقيح 
نتائجها بسهولةٍ ويسر. وعلى الرغم من ذلك فإنه من الممكن أن تكون المدونات 
اللغوية صغيرة الحجم أفضلء eM‏ إذا ما أريد التحقق من الكلمات كثيرة التردد. 
فتكون حينها المدونات اللغوية صغيرة الحجم أكثر ملاءمة من تلك المفرطة في كبر 
حجمها. مع ضرورة الوضع في الحسبان كذلك أن بعض برامج معالجة النصوص 
تُوقِف عدد أسطر الكشاف المسترجعة عند حدودٍ معينة» بحيث عندما تصل إلى حل 
معينء فإنها تتوقف عن الاستمرار في البحث داخل المدونة اللغوية. 
وعلاوة على ذلك» فإن هناك اعتبارات عملية أخرى. فعلى سبيل àsj 15] «Jill‏ 

استعال مدونةٍ لغوية منطوقة ذات تفصيلات عالية من الدقة» فإنه من الأجدى أن 
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التعامل مع آلافٍ من الكلمات» وليس ملايين من الكلمات. بينا يعتمد الموقف 


مع المدونات اللغوية المكتوبة على الحصول على تصاريح مسبقةٍ حتى لا تنتهك حقوق 
الملكية. )2017 (Evans,‏ 


y 


الشمولية والتمثيل :comprehensiveness and representativeness‏ تعنى مدى 
تغطية العينة المنتقاة للتغير الواقع في مجتمع النصوص التي يتم تحليلها. ويتضمن ذلك 
نوع» وعدد» وطول» واختيار عينات النصوص التي يتم تغطيتها. وسيّق كل ذلك 
بقرارات منهجية لتحديد مجتمع النصوص وأخذ العينة (Biber, 1994) sampling‏ 


. التوازن :balance‏ أي أذ يكو هناك ترون بين أنواع أو فئات النصوص 


والمتمصنات وغ ذلك alt, lt‏ معان الف »قلا ری مو أو مط 
جغرافيةء أو قترة cha)‏ أو sss‏ غل غبره. a ME‏ اللي يضمن ie ph dM‏ 
al;‏ عن التحيزء وبالتالي إمكانية الخروج بمؤشراتٍ ونتائج أكثر io‏ وتمثيلا 
مجتمع الدراسة )2006 .(McEnery,‏ 


الأسئلة التى يمكن أن تجيب عنها المدونات اللغوية 


يمكن للمدونات اللغوية أن تجيب عن الأسئلة التالية: 


. ما أكثر الكلمات أو العبارات ترددًا؟ 


؟. ما أوجه الاختلاف بين النصوص المكتوبة والنصوص المنطوقة؟ 


. ما الأفعال» أو الأساء» أو الحروف التى يستخدمها أهل اللغة أو أهل التخصص 


أكثر من غيرها؟ 


. ما حروف الجر (أو الأفعال» أو الأسماء) التي تسبق أو تلي كلمة بعينها؟ 
. كيف يستخدم أهل اللغة أو أهل التخصص كلمة أو مصطلحًا معيئًا؟ 


مرة تستخدم فيها التعبيرات الاصطلاحية بين أهل اللغة أو أهل تخصص ما؟ 
وغيرها الكثير من الأسئلة التى يمكن طرحها وفق الهدف الذي يحدده المستفيدون 
أنفسهم من المدونات اللغوية )1-2 (McCarthy, 2004, pp.‏ 
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الأسئلة التى لا تجيب عنها المدونات اللغوية 
]15 كان من المهم فهم ما يمكن أن تقدمه المدونات اللغوية من خدماتٍ ilde‏ فإنه 

من المهم أيضًا أن نعرف ما ليس بمقدورها أن توفره أو تجيب عنه. فالمدونات اللغوية لا 

يمكنها أن تجيب عن الأسئلة التالية: 

.١‏ ما البراهين أو الأدلة السلبية حول استعمال AdS‏ أو مصطلح» أو عبارة معينة؟ 
فالمدونات اللغوية لا تقدم ما هو مكتا أو مناسبًاء أو غير مكنِ أو غير مناسب من 
النصوص؛ بل lel‏ تقدم فقط ما هو متاحًا أو غير متاح في المدونة اللغوية. ولذا 
نجد أن البعض قد يخطىء ء في اعتقاده ob‏ المدونات اللغوية لا تقدم كافة الأساليب 
والطرق التي تُعبر عن فكرةٍ معينة» وبالتالي فإنهم لايثقون في البراهين والأدلة التي 
تقدمها المدونات اللغوية. غير إن هؤلاء ينبغي أن يضعوا في الحسبان أنه إذا لم يكن 
أسلوب الفكرة ét‏ فيا يتم تقديمه» فلربما يرجع ذلك إذن إلى أن هذا الأسلوب 
غير شائع الاستخدام في الموضوع أو النوع الأدبي الذي تغطيه المدونة اللغوية المعنية. 

۲ لماذا...؟ 
فالمدونات اللغوية لا يمكنها تفسير: USUD‏ هذه الظاهرة اللغوية» أو هذا المصطلح» 
أو غيرهما؟ فالإجابة عن «لاذا» لا تتم إلا عن طريق آهل اللغة أو آهل التخصص 
أنفسهم باستخدام حدسهم أو بديهتم 

۳. ما كافة الاستخدامات الممكنة لمصطلح أو كلمة أو عبارة في اللغة على إطلاقها؟ 
فالمدونات اللغوية لا يمكنها توفير ÉS‏ الاستخدامات الممكنة للغة في Of‏ واحد. 
إذ إن المدونات cia SRI‏ مهيا بلع جما فإنه لا يمكنها أبذا تخطية كافة الينياقات 
الممكنة التي تُستخدم فيها اللغة» بل Lel‏ تظل Glo‏ معنية بنوع أو موضوع d£‏ 
ولیس كافة الأنواع والملوضوعات )1-2 (Bennett, 2010, pp.‏ 

الخلاصة 
انصب هذا الفصل على موضوع المدونات اللغوية من حيث الماهية والأهمية. dio‏ 

ضوء ذلك تم سرد الأصل الإنجليزي للكلمة» ومقابلاتها المختلفة في اللغة العربية» 

ومفهومهاء مع إلقاء E‏ تاريخية على بدايات نشوء واستخدام وتطور المدونات 

اللغوية» والتعرف على تميزات ومواصفات المدونات اللغوية» وما يمكن للمدونات 

اللغوية أن تجيب عنه» وما تعجز أن تقدمه. 
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الفصل الثانى 


المدونات اللغوية أداة بحثية ومقارية منهجية 


التمهيد 

مجالات الإفادة من المدونات اللغوية 
الإفادة من المدونات اللغوية في علم اللغة 
الإفادة من المدونات اللغوية في تدريس وتعلم اللغات 
الإفادة من المدونات اللغوية في علم اللغة الاجتماعي 
الإفادة من المدونات اللغوية في صناعة المعاجم 
الإفادة من المدونات اللغوية في الترجمة 
الإفادة من المدونات اللغوية في دراسة التوجهات الفكرية (الأيديولوجيا) 
الإفادة من المدونات اللغوية في علم المعلومات 
الإفادة من المدونات اللغوية في صناعة المكانز 
الإفادة من المدونات اللغوية في المعلوماتية الحيوية 
الإفادة من المدونات اللغوية في المعلوماتية الجنائية 

مراحل إنشاء المدونات اللغوية 

أنواع المدونات اللغوية 

الاستخدام المنهجي للمدونات اللغوية 

الخلاصة 
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التمهيد 


بعدما تم التحقق من ماهية وأهمية المدونات اللغوية» نحاول في هذا الفصل من 
الكتاب أن نسلط الضوء على تلك الأداة التي يسير استخدامها واستثارها بخطىّ 
متسارعةٍ في فروع عدةٍ من فروع المعرفة البشرية. وفي هذا السياق سيتم تناول المدونات 
اللغوية» كونها Shol‏ في إجراء البحوث العلمية» ومقاربة منهجية في إعداد الدراسات في 
مجالات المعرفة المختلفة» إضافة إلى مراحل إنشائهاء وأنواعهاء واستخدامها منهجيًا. 
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co ue‏ الإفادة من المدونات اللغوية 
تعد المدونات اللغوية مصدرًا حيويًا للبيانات التي يتم تحليلها إذا ما أريد إجراء 
بحث أو ez‏ في عددٍ من التخصصات. ولذا سيتم الحديث هنا عن استخدامات 


المدونات اللغوية في مجالات المعرفة التي استثمرت بالفعل هذه الأداة في النهوض 
بتطبيقاتها العملية. 


الإفادة من المدونات اللغوية T‏ علم اللغة 

من الملاحظ أن معظم دراسات علم اللغة العام دراساتٌ ibas‏ ة أكثر منها إرشادية. 
فضلًا عن أا لا تستخدم الطرق التجريبية في منهجياتهاء بل تعمد كثيرًا إلى البديهة أو 
الحدس في التعامل مع اللغة. علاوة على أن الدراسات الوصفية للغة قد تغفل الكثير من 
التنوع في استخدام اللغة ذاتها. الأمر الذي يجعل مثل هذه الدراسات تفتقد إلى القدر المأمول 
من الموضوعية. ولذلك يؤكد العديد من علاء اللغة على أهمية الاعتماد على المدونات 
اللغوية في إجرء بحوث اللغة بغية تلافي كل هذه المعضلات, والنأي بنتائج الدراسات عن 
أي شكل من أشكال التحيز أو الآراء والأمثلة التطبيقية المتأثرة بالاعتبارات الشخصية 
(Hunston, 2002, pp. 13-14; Alansary, Nagi & Adly, 2008, p. 19)‏ 

وربا يكون أكثر المجالات إفادة من المدونات اللغوية بوجه عم هو علم اللغة 
التطبيقي الذي شرع في eel‏ هذه الأداة من أجل النهوض بالكثير من الدراسات 
اللغوية على مختلف مستوياتها؛ الصوتي» والصرفي» والنحوي» والدلالي» والخطابي» 
والمعجمى. إذ spe VT ss‏ على المدونات اللغوية في الحصول على معلوماتِ تعكس 
الاستخدام أو الواقع الفعلي authentic‏ للظواهر اللغوية. وفي الوقت نفسه تستخدم 
هذه المعلومات كونها أساسًا في تجهيز وإعداد كتب قواعد اللغة. ولذا شهدت العقود 
الثلاثة الأخيرة 5 $2 ملحوظة في الإفادة من تطبيقات المدونات اللغوية في هذا المجال. 
Hunston, 2002, pp. 13-14; Leech, 1997, p. 9; Biber, et al, 1998, McEnery,)‏ 
.(Wilson, 2001; Alansary, Nagi & Adly, 2008, p. 19‏ 

فالمدونات اللغوية بالنسبة لعلم اللغة التطبيقي بمثابة أداق» مثلها مثل التلسكوب في 
الي ودوره ل علوم dl cu 6 dl d gna HW TI‏ ارالك وكوي 
ولذا لا ينبغي أن تنتقد بسبب عجزها عن القيام s‏ ببعض المهام. وبمعنىّ آخر فإن 
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المدونات اللغوية من شأنها رصد وتقريب الظواهر اللغوية المختلفة من خلال تجميع 
واسترجاع كافة سياقاتها . غير آنا لا يمكنها تكبير الظواهر اللغوية الدقيقة قيقة التي يستلزم 
تفسير وتحليلها؛ فالعنصر البشري وحده هو القادر على أداء مثل هذه المهام Stubbs,)‏ 
p. 231; Stubbs, 1999; Hunston, 2002, p. 20‏ ,1996(. 


الإفادة من المدونات اللغوية في تدريس وتعلم اللغات 
أضحت المدونات اللغوية أداةً رئيسة في يد الكثير من معلمى ودارسى اللغات. غير 
إن اللغة العربية ما تزال مفتقدة لاستثار مثل هذه الأداة کا ينبغى أن يكون. حيث من 
الممكن أن تُفيد المدونات اللغوية كثيرًا في مجال تدريس وتعلم اللغات من جانب الباحثين 
من ناحية» ومن جانب الطلاب من ناحية أخرى» ومن جانب المعلمين من ناحية AU‏ 
في بخص الجانب الأول فإنه يمكن الإفادة من المدونات اللغوية في ضوء مساراتٍ 
عدة؛ لعل أهمها التحقق من: 
.١‏ التركيب اللغوي والمعنى :pattern and meaning‏ 
يعد التركيب اللغوي والمعنى واحدًا من الملاحظات المحورية التى يمكن استخراجها 
من نصوص المدونات اللغوية. فقد يكون لكلمة واحدة أكثر من معنىّ أو INS‏ 
(Sinclair, 1991) e IM MORAL‏ فعلى سبيل المثال عندما 
يُستخدم الظرف «قبل» ليدل على ترة تيب الأحداث في شكل علاقة السبب والنتيجة» 
فإنه يُسبق Sole‏ بفعل مضارع ite ei‏ ع ر امار 
مؤول» ويظل مستمسگا بمعناه S c Aul‏ في: تحطمت في الجو قبل هبوطها . غير 
aiU.‏ م a a‏ روي ع رم Cu‏ 
ويتبع (s‏ (عدد)» ويأخذ معنىّ آخر asi SQ)‏ قبل ساغات: 
وبناءً عليه» فإنه لا يمكن بحال القول بأن المعنى الواحد يرتبط بكلمةٍ واحدةء ولكن 
التركيب اللغوي أو الأسلوب العباري للكلمات phraseology‏ ككل هو القادر على 
تحديد المعنى. 
وقد يحدث العكس عند التحليل؛ أي يتم تحديد المعنى المشترك أولاء ثم يتم التحقق 
من التركيب اللغوي الذي يعطي هذا المعنى )119 .(Eddakrouri, 2016, p.‏ 
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:idiomatic expressions التعبيرات الاصطلاحية‎ 

ينظر Glo‏ إلى اللغة على آنا مجموعة من الكلمات التي تسهم في تقديم معنىّ Que‏ 
ولا يمكن التحقق من هذا المعنى إذا ما تم النظر إلى هذه الكلمات كونها وحداتٍ 
معجمية مفردةً أو منفصلة. فضلًا عن أنه في بعض الحالات» أو ربا كثير منهاء 
يُستخدم اسلوب aene coole‏ في تقديم معنىّ مغاير لما هو متوقع. وهنا تلعب 
المدونات اللغوية دورًا فعالّا في حصر واسترجاع كافة السياقات التي تضم مثل هذا 
الأسلوب العباري للكلياث. 

فعلى سبيل المثال يستخدم الظرف «قبل» بمعناه المباشر في معظم الحالات. إلا أنه 


عندما تتلازم أو تتصاحب معه كلمة «فوات» وكلمة «الأوان» (قبل فوات الأوان) 
op‏ هذا التركيب اللغوي ككل يتحول إلى تعبير اصطلاحي ليعطي معنى «العجلة) 
أو «الإسراع» في اتخاذ التدابير اللازمة. وغيرها الكثير من الأقوال المأثورة» والأمثال 
.(Eddakrouri, 2016, p. 121)‏ 


jJ 


المفردات والنحو :lexis and grammar‏ 
يُنظر كثيرًا إلى اللغة على آنا تكاملٌ بين المفردات والنحو. أي أنه ليس هناك فرق 
بين الكلمات المعجمية lexical words‏ (أو ما يطلق عليه أحيانًا كليات المحتوى 
«(content words‏ وبين الکلات النحوية grammatical words‏ (أو ما يسمى 
أحيانًا الكلات الوظيفية functional words‏ أو الكلمات المفرغة empty words‏ 
Sinclair, 1991)‏ غير إن الطرح الأكثر تداولًا في ضوء المدونات اللغوية هو أن 
هناك فارقًا كبيرًا بين المفردات والنحو. إذ إن الكلمات النحوية تكون عادة أكثر 55 55 
منها في الكلمات المعجمية في معظم النصوص. بالإضافة إلى ذلك فإن الكلمات 
ge oe‏ لامو Lgs‏ اق dos‏ کل ت ج ا ال AMT as‏ 

الذي يمكن التحقق منه باستخدام المدونات اللغوية. 
وفضلا عن ذلك فإنه يمكن استثار المدونات اللغوية في هذا السياق في التحقق من 


ظاهرة التلازم collocation Vgl‏ كلمة محتوى + كلمة محتوى)» وظاهرة التلازم 


-١‏ يُسميها البعض أيضًا: تلازم المصطلحات. أو التلازم المعجميء أو المصاحبة اللغوية» أو التلازم اللفظي. وهي 


كلماتٌ تتصاحب أو تتلازم أو تقترن Glo‏ بكلماتٍ qs d‏ سواءٌ لسبب» أو دون سبب ظاهر أو منطقي. 
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المعجمى النحوي colligation‏ (كلمة محتوى + كلمة وظيفية) من خلال استرجاع كافة 
سياقات الكليات المعنيّة )149-51 .(Hunston, 2002, pp.‏ 


:language variation التنوع اللغوي‎ x 
يمكن الاستفادة من المدونات اللغوية في دراسة تنوع اللغة المستخدمة في ختلف‎ 
المواقف. أو الفترات الزمنية» أو الأغراض. أو الظروفء أو الجماعات البشرية» أو‎ 
أو غيرها. ومن ثم استخدام هذه العوامل‎ C unl المناطق الجغرافية» أو النوع (ذكر/‎ 
متغيراتٍ تجريبية يمكن من خلاها التحقق من أكثر الكلمات ترددًاء و/ أو معاني‎ le 
في كل متغير. ومن الممكن أن‎ words meanings and uses الكلمات واستخداماتها‎ 
يستتبع ذلك تحليلاتٍ لغوية أخرى؛ كالتحقق من نوع وخصائص الجمل المستخدمة‎ 
في كل متغير. وبالتالي يمكن الخروج بنتائج تعكس سات التنوع في اللغة المستخدمة.‎ 
أو‎ register يمكن أيضًا الاعتماد على المدونات اللغوية في دراسة السجل اللغوي‎ 
المستخدم في سياقاتٍ‎ discourse أي التحقق من لغة الخطاب‎ ‘genre "S النوع‎ 
عند المقارنة بين السجل اللغوي المستخدم في نصوص الصحف»‎ JH معينةٍ. كا هو‎ 
أو نصوص الدراسات الأكاديمية» أو أجزاء من النصوص العلمية» كالمقدمة» أو‎ 

المستخلصء أو الخاتمة» أو غيرها. 

هذا فيا بخص الإفادة من المدونات اللغوية من جانب الباحثين. أما فيا محص ذلك 
من جانب الطلاب» فإنه يمكنهم see VI‏ على المدونات اللغوية في الإمداد بالمعلومات 
والكشف عن الحقائق بأنفسهم كونها نوعًا من التعلم الذاتي. مثل إمكانية اكتشافهم 
بأنفسهم لمعاني المغردات أو حروف الجر المستخدمة مع كلماتٍ معينة» أو غيرهاء من 
خلال السياق. وفي هذا الصدد يمكن أيضًا للمعلم أن يقدم السياقات المختلفة لكلمة 
بعينها في شكل جمل» ويترك طلابه يكتشفون المعنى بأنفسهم. أو يطلب المعلم من طلابه 
أن يذهبوا إلى مدونة لغوية معينةٍ كي يبحثوا بأنفسهم ويتحققوا من المعنى. 

وفضلا عن ذلك فإنه يمكن استثمار المدونات اللغوية من جانب المعلمين في بناء 
وتصميم الدروس. إذ يمكن طؤلاء المعلمين الحصول على سياقاتٍ جاهزة لتقديمها 
كونها aita‏ لتعزيز هدفٍ معينء أو تضمينها في التدريبات والأسئلة اللغوية المختلفة 
pp. 137-97)‏ ,2002 بدم فهك 
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هذاء ويمكن الاطلاع على الدراسات التي وظَّمّت المدونات اللغوية بالفعل للإفادة 
من هذا الكتاب. 


الإفادة من المدونات اللغوية في علم اللغة الاجتماعي Sociolinguistics‏ 

JE‏ المدونات اللغوية أحيانًا وفقًا للسن» أو للنوع» أو للمستوى التعليمي» أو 
للمستوى الاجتماعيء أو للمستوى الاقتصادي, أو للمكان الجغراني... أو غيرها من 
العوامل والمتغيرات الاجتاعية التي يتم بها ges‏ ندري 016 bx à UP pA‏ 
اللغوية. وكل هذه المتغيرات يمكن أن تقوم عليها دراساتٌ تقييمية وبحوث مقارنة 

من أجل التحقق من مدى تأثير هذه المتغيرات على المحتوى بوجو عام O'Keeffe;)‏ 
(McCarthy & Carter, 2007, p. 20‏ 

فعلى سبيل المثال» قد يتم الاعتماد على مدونةٍ لغوية لمقالات أو أخبار مجموعة من 
الصحف العربية المنشورة ببلدانٍ عربية مختافة. ومن ثم يمكن التحقق من التنوع 
اللغوي في لغة الإعلام هذه البلدان في ضوء المطابقة النحوية )2008 «Parkinson,‏ 
أو الإملاء )2006 (Zawaydeh & Saadi,‏ واختلافاتب) المتأثرة بالعوامل الجغرافية. 

]3 قد ترتبط هذه الظواهر اللغوية بالأماكن والأقاليم ا حغرافية التي يمكن للباحثين 
أن يُرجعوها إلى الآثار التي أحدثها الاستعمار في الوطن العربي. حيث تأثرت كل دولةٍ 
عربية بالدول الأخرى التي cll‏ كإنجلتراء وفرنساء وإيطاليا. الأمر الذي كان له أبلغ 
الأثر في إقحام الكثير من الكلمات المقترّضة (الكلمات الدخيلة (loan words‏ من اللغات 
الأجنبية إلى اللغة العربية كي تجد لها الأرض الخصبة في لغة الإعلام )2004 (Abdelali,‏ 

هذاء ويمكن ee‏ على الدراسات التي استثمرت بالفعل المدونات اللغوية 
للإفادة منها في علم اللغة الاجتماعي» وذلك بالرجوع إلى الفصل الخامس من هذا 
الكتاب. 


الإفادة من المدونات اللغوية في صناعة المعاجم 

أحدثت المدونات اللغوية ثورة في عالم صناعة المعاجم PERO E‏ 
لصانعيهاء لاسي| الضخمة منها. وربا تعود هذه الطريقة» التي تعتمد فيها مداخل 
المعاجم على الاستخدام الفعلي للكلمات بصرف النظر عن الاعتهاد على الحدس» إلى 


gya 
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القرن الثامن عشر الميلادي؛ ذلك حين) eB‏ صامويل جونسون Samuel Johnson‏ 

بإنشاء أول مدونةٍ لغوية يدوية لنصوص ما بين عامي VT‏ و 1760 م بغرض إعداد 
معجم شامل للغة الونجليزية. 

حيث تسهم المدونات اللغوية في رصد ومتابعة الكلمات الجديدة التي تدخل اللغة» 

وتحدد وقت دخوطاء وتتحقق من الكلمات الموجودة بالفعل التي اكتسبت ne‏ جديدًا. 

ويوجد الآن الكثير من معاجم اللغة الإنجليزية التي تحتوي على تواريخ مفصلةٍ لكل 

كلمة» وأصلها اللغوي» ومتى تم نحتها أو استخدامها لأول مرة. 
ويستطيع صانعو المعاجم بمساعدة المدونات اللغوية البحث في ملايين الكلمات 

والجمل» وسياقاتها المختلفة» واسترجاع كافة الأمثلة التي وردت بها من أجل تحري 

استخداماتهاء وتحري المصطلحات والكلمات التي ترد قبلها و/ أو بعدهاء ومن ثم 
يمكن تحديد التلازم اللغوي «collocation‏ والتعبيرات الاصطلاحية idiomatic‏ 
„äl sem expressions‏ الأمر الذي يسهم في تيسير سبل الإفادة منها في الأغراض 

التعليمية» فضلًا عن أغراض استرجاع المعلومات )2015 Dash,‏ 
ويلخص هانكس )2000 (Hanks,‏ فوائد استثار المدونات اللغوية في صناعة 

المعاجم من خلال تسليطه الضوء على ثلاثة اعتباراتٍ dedo‏ هي: 

E‏ لا يمكن spa?‏ فقط على تعريفات المعاجم للمعنى ا حرفي للمفردات» وتكرار 
تردد الكلمات» والبديبة؛ بل ين ينبغي الركون بادىء ذي edo‏ على ما تقدمه المدونات 
للغوية من بيانات وملاحظات. 

؟. تكشف البيانات التي تقدمها المدونات اللغوية الاختلاف في معاني الكلمات 
LT s cit‏ لحري eel geil pa‏ 

Y‏ توضح غالبا البياناتٌ التي تقدمها المدونات اللغوية أن المعاني المجازية للكلمات تأي 
CN‏ أو Gel‏ تعكس المعنى الدارج للاستخدام الواقعي لها. 
ومن أمثلة المعاجم التي لجأت إلى استخدام المدونات اللغوية Bol LeS‏ رئيسة في 

صناعتهاء معجم ديكشناري دوت كم Dictionary.com‏ للغة الإنجليزية )2015(« 

ومعجم روبرت LE ROPERT‏ للغة الفرنسية (2015)» ومعجم كولينز Collins)‏ 

5 متعدد اللغات. ومعجم ماكميلان Macmillan‏ للغة الإنجليزية (2015). 
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ee‏ مثل P‏ نشر جامعة —€- a «Oxford University Press‏ نشر 
جامعة كمبريدج .Campridge University Press‏ وكل هذه المعاجم M‏ على 
مدونة سكيتش إنجين Sketch Engine‏ (2015) في إنجاز مشر وعاتها. 
ومن الناحية البحثية» فإنه بمقدور مثل هذه المعاجم أن تجعل الباحثين iux 4x ssi‏ 
وتأكدًا من أن نتائج دراساتهم تعكس المعاني والاستخدامات الفعلية للكلمات إلى Je‏ 
كبير. |3 يقوم صانعو pue‏ بإعداد إحصاءات بتكرار د الكليات» ومن ثم يمكن 
ali i‏ 5 وباس ا 
اللغوية على النحو التالى: 
.١‏ لا RAS‏ المدونات اللغوية اللغةَ رفيعة المستوى: 
"v‏ المعاجم الإرشادية prescriptive lexicons‏ عادة إلى BUH‏ على نقاء «AXI‏ 
ولذلك فإنها تُستخدم مدونات لغوية (SU JI GA‏ ذوي المستوى الرفيع. إلا 
أن المعاجم الوصفية descriptive lexicons‏ القائمة على المدونات اللغوية» وهى 
الأكثر شيوعًاء فينبغي أن تعكس الصورة الواقعية الصحيحة للغة التي تُستخدم 
؟. لايد أن تكون المدونات اللغوية كبيرة ومتنوعة: 
ينبغي أن تغطي المدونات اللغوية المستخدّمة في ا معاجم نطاقا واسعًا من النصوص. 
ولا يوجد na dm‏ لحجم هذه المدونات اللغوية؛ فقد يتراوح حجمها بين أقل من 
مليون هيكل كلمة إلى أكثر من مليار هيكل كلمة. وقد أوضح قانون زيف Zipf’ s‏ 
Law‏ أن عددًا قليلا من الكلمات يتكرر بشكل cres‏ بین يندر تكرار الكثير من 
الكلمات؛ وهذا يعني أن اللغة تتكون من عددٍ قليلٍ من الكلمات الأكثر شيوعَاء 
وعددٍ كبير من الكلمات نادرة الاستخدام. وهذا يعني INIM LÀ‏ 
من الكلمات نادرة الاستخدام أو قليلة التكرار» فإنه ينبغي أن يكون حجم المدونة 
اللغوية كرا قد رالإمكان: 
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۳. المدونات اللغوية إما أن تكون متزامنة أو تكون متعاقبة: 
ينبغي البت في تجميع النصوص من مراحل زمنية أو تاريخية (diachronic) iab‏ 
قبل الشروع في إنشاء SAL‏ اللغوية» كا هو الحال في مدونة هيلسينكي للنصوص 
الإنجليزية Helsinki Corpus of English Text‏ )2011(. وقديتم تجميع النصوص 
من فترة زمنية KS «(synchronic) è polas‏ هو JU-I‏ في المدونة اللغوية الدولية للغة 
الإنجليزية The International Corpus. of English (ICE)‏ (2015). وما هو 
مؤكدٌ أن المعاجم التاريخية تتطلب مدوناتٍ لغوية متعاقبةء (eu‏ تتطلب المعاجم 
التعليمية مدوناتٍ لغوية متزامنة توضح كيفية الاستخدام الراهن للغة. 

. يفضل أن تكون المدونات اللغوية متوازنة: 
لايمكن للمدونات اللغوية أن تتبع الأساليب المنهجية في تجميع العينات العشوائية؛ 
OY‏ موضوع العينة هنا هو النصوص التي هي بالأساس S ke‏ عن وحداتٍ لغوية 
ديناميكية تنمو وتتطور. فديناميكية اللغة تحول دون الفهم الكامل لطبيعة وحدود 
اللغة. ولذا فإن ما تطمح إليه معالجة النصوص هو إنشاء مدوناتٍ لغوية متوازنة 
من خلال الاعتماد على أسلوب العينة الطبقية. حيث يتم تصنيف النصوص في 
فئاتٍ تبعًا لأنواعها وموضوعاتهاء ومن ثم يتم الحصول على عينةٍ عشوائية من 
هذه الفئات. ولإضفاء أكبر قدر من التوازن على النصوص الْمجَمَّعَة فإنه لا يكتفى 
بوضع أنواع النصوص في الحسبان فحسب» بل أيضًا نسب أو عزو هذه النصوص 
بعضها إلى بعض )2010 .(Attia; Tounsi & Genabith,‏ 

0 ينبغي أن تكون المدونات اللغوية موضوعية: 
هذا يعني أنه يجب أن تكون النصوص التي يتم جمعها غير متحيزة لفئةٍ أو نوع 
معينٍ من النصوص على حساب غيره؛ حتى لا تفتقد النتائج المسترجعة إلى الدقة 
والموثوقية. فمثلاً إذا كان الهدف من المدونة اللغوية هو تحليل مقالات الأخبار أو 
الأعمال الشعرية» فإنه لا يمكن بحالٍ أن يتم تعميم النتائج على كافة أنواع النصوص 
الأخر ى )2010 .(Attia; Tounsi & Genabith,‏ 
هذاء ويمكن الاطلاع على الدراسات التي استثمرت بالفعل المدونات اللغوية للإفادة 

منها في صناعة المعاجم» وذلك بالرجوع إلى الفصل الخامس من هذا الكتاب. 
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الإفادة من المدونات اللغوية فى ia jil‏ 
اوا اللخرية عات عا ق غا ارج فار مك الوت 
اللغوية التي تحوي الترجمات ويقارنها بالمدونات اللغوية التي تحتوي على النصوص 
الأصلية؛ مبدف التحقق من الخصائص المميزة للنصوص المترجمة Baker, 1995, pp.)‏ 
cs 02325‏ يستخدمها البعض الآخر عاملا مساعدًا في عملية الترجمة ذاتهاء سواءٌ 
أكانت يدوية أم آلية. والمدونات اللغوية في هذا السياق تنقسم إلى ثلاثة أنواع: 
.١‏ المدونات اللغوية أحادية اللغة :monolingual‏ 
تتكون من لغة واحدة» سواءٌ أكانت لغة النصوص الأصلية» أو لغة النصوص المترجمة. 
Y‏ . المدونات اللغوية المقارنة :comparable‏ 
تحوي نصوصًا من لغتين (أو أكثر) مختلفتين (كالعربية والإنجليزية على سبيل 
(JEI‏ أو من نوعي لغة two varieties‏ (أو أكثر) مختلفين (كالفصحى والعامية). 
بحيث يحتوي كلا منها على القدر نفسه من النصوصء با يسمح بالمقارنة الموضوعية 
والعادلة بينهما. 
ويك اذ AI oli al edic‏ لتر لوعي 2 agile‏ من أجل à ull‏ 
بينهما. بينم تستتخدم المدونات اللغوية المقارنة للغتين ختلفتين لأغراض الترجمة وتدريس 
Ml‏ و من أوجه التشابه ونقاط الاختلاف بين هذه اللغات. 
وتّعد اللغة العربية من اللغات الفقيرة في هذا الصدد. ومن أبرز الأمثلة على 
هذا النوع المدونة اللغوية الدولية للغة الإنجليزية The International Corpus of‏ 
(English (ICE) 5‏ التي تضم Ul yl‏ مختلفة من الإنجليزية. 
Y‏ . المدونات اللغوية المتوازية :parallel‏ 
تتكون من نصوص أصليةٍ في إحدى اللغات Ga‏ إلى جنب مع نظيرتها Xe AM‏ في 
ia‏ أخرى واحدة أو أكثر. وهى إما أن تكون أحادية الاتجاه unidirectional‏ من 
اللغة T‏ إلى اللغة ceo‏ أو ثنائية bidirectional MI‏ من اللغة أ إلى اللغة ب» ومن 
اللغة ب إلى اللغة أ )1999 (Aston,‏ 
ويمكن استثار هذا النوع من المدونات اللغوية في إرشاد المترجمين والطلاب 
إلى الكلمات والتعبيرات اللغوية المقابلة بين اللغات» ومن ثم إمكانية المقارنة بينها 
.(Hunston, 2002, pp. 14-15)‏ 
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Glosbe على ذلك القاموس متعدد اللغات على الإنترنت المعروف باسم:‎ M 
الذي يترجم من وإلى الكثير من اللغات الحية» ومنها اللغة العربية.‎ 

هذاء ويمكن الاطلاع على الدراسات التي استثمرت بالفعل المدونات اللغوية 
soli‏ متها p ctm Id‏ ذلك tpe Ju‏ إل الفصل eal‏ من هذا E‏ 


الإفادة من المدونات اللغوية في دراسة التوجهات الفكرية (الأيديولوجيا) 
هناك Rial‏ متزايدٌ بدراسة العلاقة بين اللغة والأيديولوجياء ولاسي| فيا يتعلق 
بدور اللغة في تشكيل الافتراضات حول العالم المحيط» ونقل الإرهاصات ee‏ يمكن أن 
تكون عليه الشؤون الدنيوية. إذ ينظر إلى اللغة في هذا السياق على lel‏ نسيجٌ متغلغل في 
العام الاجتماعي يسهم في تخليد هذه الافتراضات والإرهاصات والقيم حول هذا العام 
الاجتماعى )1987 Fowler,‏ 
رکو هنا oA ol ll elus‏ ن ad, ag DG e à‏ 
.١‏ دراسة النصوص من خلال التحقق من سياقات الظروف الاجتاعية التي نشأت 
فيها. 
۲. الكشف عن الأيديولوجيات الضمنية وراء الافتراضات المعلنة. 
۳. التأكد من المغزى العام للأشياء التي يتم تمثيلها بمدلولاتٍ مختلفة. 
وتتضح استخدامات المدونات اللغوية جلي في المحورين الثاني والثالث. حيث يمكن 
الإفادة من المدونات اللغوية في هذا الإطار في التحقق من التركيبة المعجمية للمفردات 
مع بعضها البعض داخل النصوص كما وردت في اللغة الطبيعية؛ بهدف الكشف عن 
الأيديولوجيات أو المغزى من الرسائل الضمنية أو الغريبة المنقولة بعباراتِ صريحة. 
غير إن هناك بعض الشكوك وراء مدى إفادة المدونات اللغوية فيا بخص المحور 
الأول. إذ يرى البعض أنه بمجرد معالجة نصوص المدونات اللغوية فإنه بذلك تكون 
قد خرجت من لغتها أو سياقاتها الطبيعية» ومن ثم لا يمكن الحكم على العوامل 
الاجتاعية المحيطة أو المؤثرة فيها. 
وعلى أية حال فإن المدونات اللغوية تسهم بشكل كبير في التحقق من الخلفية 
الأيديولوجية للمؤلفين من خلال تحليل الخطاب discourse analysis‏ فعلى سبيل 
المثال» يمكن الاستعانة بالمدونات اللغوية في تعيين الكلمات المفتاحية لأي e g^‏ يكتب 
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في الأمور السياسية أو الاجتاعية أو الثقافية... إلخ. حيث يتم فحص هذه الكلمات التي 
يستعين بها باستمرار في كتاباته» وهي في الوقت نفسه cab i‏ من أجل خدمة توجهاته 
الفكرية» على cis‏ کلاتِ اا أخرى قد لا يؤمن ہا هذا المؤلف Hunston,)‏ 
Tuebert, 2000‏ ;2002(. 


الإفادة من المدونات اللغوية في علم المعلومات 
لطالما استخدم علم المعلومات مصطلحَ äs pa)‏ اختبار» JY test collection‏ 
على قياس كفاءة وصلاحية الأدوات» ودقة وفعالية الطرق والنظم المستخدمة في تجارب 
استرجاع المعلومات. وكانت البداية مع تجارب كرانفيلد Cranfield experiments‏ في 
منتصف خمسينيات القرن الماضي. حيث استخدم هذا المصطلح حينها ليشير في حقيقته 
إلى: 
.١‏ مجموعةٍ من الوثائق التى تشتمل على العناوين» أو المستخلصاتء أو النصوص 
الكاملة» أو كل A dte E‏ 
de gest Y‏ من الامنتفسارات أو الأسثلة. 
ie gat Y‏ من أحكام الصلاحية الصادرة بحق هذه الوثائق )2003 (MacMullen,‏ 
ومن بين أبرز مجموعات الوثائق التي تم استخدامها في تجارب استرجاع المعلومات 
«مجموعات كرانفيلد» )1971 (Salton,‏ ومجموعة اختبار وكالة أنباء رويترز Reuters‏ 
«Sanderson, 1994)‏ ومجموعات 5 TREC collections (TREC) Text‏ 
REtrieval Conference, National Institute of Standards and Technology‏ 
(NIST), 2015‏ 
إلا أن هذه التجارب واجهتها DAKE‏ تطبيقية تمثلت في أن الحكم على صلاحية 
الوثائق لا يعني بالضرورة أنها تلبي احتياجات الباحثين الواقعية كلية. إذ إن هناك 
جانبًا LS‏ في الأهمية أغفلته هذه التجارب» وهو إلى أي مدى تمثل هذه الوثائق الواقع 
الفعلي real-life‏ للنصوص كا يستخدمها المستفيدون. ويضاف إلى ذلك أن حجم 
هذه الوثائق لم يكن من الشمولية والتغطية التي يمكن معهما القول بأنه يمثل الواقع 
الذي استخدمت فيه. وبالتالي ظل التصديق بصلاحية هذه النظم في التطبيق منقوصًا 
(Ledwith, 1992, p. 452)‏ 
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ولذا أصبحت المدونات اللغوية بمفهومها الشمولي الحديث أداة لا غنىّ عنها في 
اختبار وتقييم نظم استرجاع المعلومات, على النحو الذي يعكس الاستخدام الحقيقي 
لمدخلات هذه النظم. إضافة إلى استخدامها في الكشف عن المعرفة في قواعد البيانات 
cils Knowledge Discovery in Databases (KDD)‏ عن البيانات data‏ 
«mining‏ واقتباس/ استخراج المعلومات information extraction‏ والتكشيف 
الدلالي الكامن latent semantic indexing‏ . 

كا يمكن أن تُستخدم المدونات اللغوية كوبا أداةً للتحليل الكمي والنوعي في علم 
المعلومات. فعلى سبيل المثال» يمكن تجميع نصوص ie pat‏ من المقالات المتخصصة 
في علم المعلومات» ويتم التحقق من عدد مرات تكرار كلمةٍ مثل «معلومات» أو 
«مكتبات») . حينها نحصل على نتائج كمية Ë‏ من معرفة أي الكلمات أكثر تكراراء 
وأما أقل. ومن ثم نستطيع أن salit‏ إلى أن إحدى الكلمات أكثر تداولاء dedos‏ فهي 

م ST‏ من غر ها وق cd JM‏ شه بطي i od‏ من الشكل الذي وردت 

به إحدى الكلمات أو العبارات أو الجمل. أي أن المدونات اللغوية لا تقف عند حدود 
التحليل الكمي فحسب. بل Lel‏ تقوم أيضًا dde‏ نوعي يُظهر البيئة اللغوية الداخلية 
وكذلك البيعة الو الح انا اة هة 

وجديرٌ بالذكر أنه لا توجد مدونة لغوية L‏ للإفادة منها في كافة الأغراض. فقد 
يستخدمها البعض لأغراض بحثية في دراسة المفردات والمصطلحات وأشكاها. وقد 
تدا العص ار ى المقارقة ين eol all colo pill‏ فق اللحات والليجابت 
المختلفة. مثل المقارنة بين مصطلح metadata?‏ في الإنتاج الفكري الأجنبي» ومقابلاته 
العربية المختلفة التى استخدمها الباحثون. وني هذه الحالة لابد أن E‏ المدونة اللغوية 
الإنتاج الفكري Mas Ses‏ وقد تفي بعض المعاجم أو نظم استرجاع المعلومات بقدر 
من هذه الأغراض» إلا أن البحث في coU gall‏ اللغوية يوفر أمثلة i es‏ ومتنوعة لكلمات 
البحث في سياقاتها الطبيعية )2003 (MacMullen,‏ 

وبوجد cele‏ فإنه يمكن الإفادة من المدونات اللغوية في علم المعلومات في ضوء: 
.١‏ التحقق من موقع أي عنصر من عناصر النص (اسم» أو فعل» أو حرفء أو جملةء أو 

عبارة» أو مقطع» أو فقرة. .. إلخ) حتى وإن كان هذا العنصر كلمة jai el‏ مائلًا 

في ذاكرة المستفيد جزئياء فإنه بالإمكان العثور عليه وتسجيل مصدر الاقتباس كاملا. 
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. مقارنة وتحليل الكلمات» وخاصة المشتركات اللفظية» والمترادفات» والأشكال 


المختلفة للمصطلحات. حيث يمكن حصر كل المعاني المختلفة لكلمةٍ بعينها من خلال 
عرض كافة سياقاتهاء مثل JS‏ «قلب» التي من معانيها: جوهر» وقلب يضخ cebl‏ 
ووسط أو منتصف. أما إذا ما تم حصر المترادفات المختلفة لكلمة معينة» فإنه يمكن 
التحقق من معدل شيوع کل منهاء مثل كلمات: ميتاداتاء وميتاديتا» وما وراء البيانات» 
والبيانات الفوقية» وبيانات عن البيانات... أو مصادر المعلومات» وأوعية المعلومات» 
ومواد المعلومات... أو تكنولوجيا المعلومات» وتقنيات المعلومات... إلخ. 

وكا نلاحظ أن أول كلمتين OWE‏ شكلين مختلفين لمصطلح واحيٍ. وبالتالي يمكن 


CANO SUN A A EE‏ ا OE‏ متا كه ا 
إرساد او باحون إلى أي 3 واي منها ب : 


y 


الحديثة في أحد J‏ لتخصصات» Pl gu‏ بوجو عام أو call‏ بعينه عبر مراحل زمنية 
غتلفة. 


. فحص الاختلافات والتشابهات في استخدام الكلمة بين المؤلفين المختلفين» وأيضًا في 


الكتابات المبكرة والأخيرة لمؤلف بعينه. الأمر الذي من شأنه أن يُسهم في التحقق من 
التأليف وصناعة الكتابة والانتحال AAY T 14AY « sul Ae)‏ ص ص (VY-N‏ 


. مقارنة واستعمال USE‏ في دراسات الأسلوبية sstylistics‏ إذ تتيح المدونات 


اللغوية التحقق من أوجه التشابه ومظاهر الاختلاف في استعمال الكلمات من 
جانب المؤلفين. ويمكن لمثل هذا التحليل أن يساعد في التأكد من مسؤولية تأليف 
الأعمال مجهولة المؤلف (قاسم» °( ص ص (YYA‏ 

هذاء ويمكن الاطلاع على الدراسات التي استثمرت بالفعل المدونات اللغوية 


للإفادة منها à‏ استرجاع المعلومات» وذلك بالرجوع إلى الفصل الخامس من هذا 
اكاب كات يكن مطالحة اندرا ات الى رطفت الدونات اللقري لواد مها 


في ال مكتبات وعلم المعلومات بالرجوع إلى الفصل نفسه. 
الإفادة من المدونات اللغوية à‏ صناعة المكانز 


هناك شقان رئيسان لدراسات المصطلح القائمة على المدونات اللغوية» هما: رصد 


المصطلحات؛ أي اكتشاف المصطلحات المرشحة» والإنشاء JYI‏ للمكانز؛ أي إضافة 
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علاقاتٍ دلالية لبنك المصطلحات الذي يتم تجميعه (,1999 Morin & Jacquemin,‏ 
(pp. 389-93‏ 

ولطالما اعتمد الباحثون على الطرق اليدوية في إنشاء المكانز» غير إن هذه الطرق 
تكتنفها مشكلتان رئيستان» هما: حجم الجهود اليدوية الكبيرة المبذولة في تحديد 
المصطلحات التي يتم إدراجها وتنظيمها داخل المكنز» ومدى ملاءمة أو تغطية المكنز 
اليدوي هذا لمجموعات الوثائق. علاوة على ظهور هاتين المشكلتين مرة أخرى إذا 
ها أريد UNT‏ المكنز. ولذا عكف الباحثون على إيجاد البدائل التي من شأنها تسريع 
وتيرة إنشاء وتحديث المكانز باللجوء إلى برمجيات معالجة لمحتوى المدونات اللغوية 
.(Grefenstette, 1993)‏ 

oo‏ تعود فكرة استخدام الحاسب الآلي في إنشاء المكانز إلى سبعينيات القرن الماضي 
(C‏ حاول سالتون )1971 (Salton,‏ وجونز )1971 (Jones,‏ استخدام مصفوفاتٍ 
رياضية توضح العلاقة بين المصطلحات من خلال مقاييس إحصائية. إلا أن هذه 
الطريقة تكتنفها بعض المشكلات SLT‏ وهي أن الكثير من المصطلحات غير المرتبطة 
ببعضها البعض تتصاحب Ga‏ كونها عامة أو كثيرةً في تكرار ترددهاء كا أنه من الصعوبة 
بمكانٍ استخدام المترادفات معّاء وأن اعتماد المصطلحات المكونة من كلمةٍ واحدة Qu‏ 
على حساب المصطلحات المكونة من أكثر من كلمةء إضافة إلى أن التجمعات العنقودية 
5 للمصطلحات المترابطة ترد عادة دون إظهار العلاقة بين وحداتها )& Jing‏ 
.(Croft 1994, pp. 146-55‏ 

إلا آنه في أواخر تسعينيات القرن المنصرم أتاحت بعض برمجيات معالجة المدونات 
اللغوية ÉÉ‏ للتحليل القواعدي للنصوص لتوليد أو إنشاء المكانز بفرضية أن 
المصطلحات المتشابهة أو المترادفة تظهر عادةً في علاقاتٍ تظمية واحدة» حيث يتم 
تجميعها معًا EP‏ للسياق النحوي أو الآجرومى الذي وردت به Grefenstette,)‏ 
l .(1994, pp. 18-23‏ 

وقد حدد البعض خطوات إنشاء المكانز على النحو التالي: 
.١‏ إعداد مدونة لغوية. 
۲. تحديد سياقات كل كلمة. 
-Y‏ تعيين الكلمات التي تشترك في السياقات نفسها. 
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ob lesus‏ دقة المكانز تزداد بازدياد حجم المدونات اللغوية القائمة عليها؛ 
فكلما ازداد حجم المدونة اللغوية» ازدادت القدرة على تعيين الكلمات المتشابهة وتمييزها 
عن الكلمات الأخرى المشوشة )41-44 (Rychly & Kilgarriff, 2007, pp.‏ 

ومن أمثلة المكائز الى تعتمد على coU all‏ اللغوية كوا Sal‏ رئيسة في صتاعتهاء 
مكنز م 1 )0015( ومكنز كولنز Collins‏ للغة الإنجليزية «Q015)‏ 
اللذان يستخدمان مدونة سكيتش إنجين Sketch Engine‏ )2015( في إثرائها. 


الإفادة من المدونات اللغوية فى المعلوماتية الحيوية Bioinformatics‏ 

أصبحت المدونات اللغوية Sl‏ رئيسة في المعلوماتية الحيوية وعلم الأحياء بوجو عام. 
حيث يتم الاعتماد عليها في المقارنة بين الجينومات والمنتجات البروتينية للجينات؛ من خلال 
التحقق من تسلسل ال دي إن إيه DNA‏ وال آر إن إيه RNA‏ والبروتينات ومضاهاتها أو 
مقارنتها في الكائنات الحية. وبالتالي يمكن تحديد درجات التشابه» والاختلاف» والوقت 
المستغرق عبر مراحل التطور المختلفة )1999 .(Tanabe & et al.‏ ومن أمثلة المدونات 
اللغوية المستخدمة في توقع التركيبات البروتينية مشروعٌ تقويم تحشية الجينوم Genome‏ 
cAnnotation aSsessment Project (GASP) (2014)‏ والمدونة اللغوية ذات التحشية 
متعددة الأوجه للعلاقات بين الجينات ومرض السرطان Corpus with Multi-faceted‏ 
Annotations of Gene- Cancer Relations (COoMAGC) (Lee & et al. 2013)‏ . 


الإفادة من المدونات اللغوية فى المعلوماتية الجنائية Forensic Informatics‏ 
يقد dala all‏ اة colis‏ تفلم ele y cola all‏ الا ف «à gall due‏ 
Cà Ca y‏ بخص القضايا الجنائية والأحول المدنية على السواء. إذ تستخدم المدونات 
اللغوية كونها Bl‏ رئيسة في معالجة محاضر تحريات db JE‏ والتأكد من هُويات 
المتحدثين» ونصوص القوانين والمرافعات» ومدى قابلية النصوص التشريعية للقراءة 
والفهم» ومصداقية الوثائق التي تتضمن اعترافات ضحايا حالات الانتحار» وخطابات 

التهديد. 

كما يمكن أن تفيد المدونات اللغوية في التحقق من الأصوات المسجلة» وما إذا 
كانت وثيقتان (أو أكثر» أو فقرات من الوثائق) منسوبتين لشخص ماء أو لمجموعة من 
الأشخاص. ويمكن أن تفيد أيضًا في الحكم على مدى مصداقية أقوال المتهمين. فا يتم 
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تجميعه من نصوص في هذا الشأن يمكن أن يستخدم في بناء مدونة لغويةٍ يتم معالجتها 
على يد المتخصصين. الأمر الذي من شأنه أن يسهم في تقديم الأدلة» ومن ثم إصدار 
الأحكام اعتمادًا على البراهين والإثباتات. 

وعلى النحو نفسه يمكن أن تستخدم المدونات اللغوية في التحقق من سرقة وانتحال 
المعلومات العلمية .plagiarism‏ حيث تُستخدم ue y‏ مخصصة لهذا الغرض في 
تحديد النصوص المنسوخة؛ من خلال مقارنة النصوص المشكوك فيها suspected‏ 
8 بتلك النصوص الضابطة Control texts‏ ومع وضع a‏ أدنىّ لعدد المفردات 
المشتركة بينهماء والذي يتم معه القبول بسلامة النصوص المنسوخة» فإنه يمكن الحكم 
على السرقة العلمية من عدمها. كا يمكن للمقارنة أن تتم في ضوء تحديد المفردات التي 
تكررت مرةً واحدة فقط (يطلق عليها بالإنجليزية (hapaxes‏ أو تلك colo all‏ الفريدة 
unique‏ التي تتفرد مها مجموعة النصوص المشكوك فيها مقابل النصوص الضابطةء أو 
العكس. ومن الممكن أن تتم هذه المقارنة على مستوى العبارات أيضًا. 

ومن أمثلة المدونات اللغوية المستخدّمة في المعلوماتية الجنائية مستودع المعلوماتية 
الجنائية للقياسات الحيوية The Forensics Informatics Biometrics Repository‏ 
FIB-R) (2015) (Hunston, 2002, pp. 130-31; Suchomel & Brandejs, 2014;‏ 
.(Garfinkel, 2009‏ 


مراحل إنشاء المدونات اللغوية 

قر أي مدونةٍ لغوية بمجموعةٍ من مراحل الإنشاء التي يمكن توضيحها على النحو التالي: 
تحديد الهدف والأساس المنطقى rationale‏ 

برط gall‏ الي 01 055 ا puel.‏ أن وما كآن 2,5 عا 
لأحد فروع المعرفة» أو أحد المؤلفين» أو أحد الأماكن... وغير ذلك من الأمور التي 
يجب مراعاتها عند تصميم» أو شراء» أو استخدام المدونات اللغوية. ومعيار التمثيل 
95 هنا يؤدي دورًا رئيسًا في تحديد الأساس المنطقى عند إنشاء 
l E PET‏ 


5 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————————— $5‏ 


تحديد أنواع النصوص المناسبة 
يراعى هنا التحقق من اعتبارات جدوى المدونة اللغوية؛ أي ما الذي يمكن إتاحته؟ 

وما هو مناسبٌ أخلاقيًا واجتماعيًا؟ مع مراعاة أن يكون تمثيل البيانات دقيقا Úe y‏ 

للغرض من المدونة اللغوية. ويراعى أيضًا تحديد ما إذا كانت النصوص مكتوبةء أم 

منطوقةء أم مزيجًا بينهما بعد تحديد نسب كل نوع وفق أسس مسبقة. 

تحديد مصادر النصوص 
قد يلجأ البعض إلى بناء مدونةٍ لغوية من خلال مقالات الدوريات» أو نصوص الكتب» 

أو الرسائل الجامعية... إلخ. أو أن يتم تسجيل كافة التقارير الإذاعية الإخبارية لإحدى 

الصحفء أو تسجيل التقارير الرياضية» أو التقارير الاقتصادية» أو السياسية... إلخ. 

الحصول عل الموافقة القانونية 
يتعين قبل أي إجراءٍ على النصوص أن تُراعى M JT‏ حقوق التأليف والملكية الفكرية. 

Ul‏ إذا ما أريد بناء مدونةٍ لغوية منطوقة فإنه Jak‏ الحصول على موافقة كتابية من 
صاحب النص قبل الشروع في عملية التسجيل» بحيث تُوضّح في هذه الموافقة الطريقة 
التي سيتم بها تسجيل الحديث» والغرض من ذلك. 
جمع النصوص 
حينم تكون المدونة اللغوية ilie‏ لنصوص مكتوبةٍ» فإنه يتم ole‏ إدخاها إلى الحاسب 
JI‏ عن طريق: 
.١‏ الأسلوب اليدوي التقليدي باستخدام لوحة المفاتيح. 
Y‏ المسح الضوئي scanning‏ باستخدام قارئ المحارف البصرية optical character‏ 
reader OCR‏ الذي يقوم بمسح النصوص المطبوعة ثم تحويلها إلى نصوص رقمية. 
إلا أن ثمة مشكلتين تواجها هذه الوسيلة» هما: 
- اقتصار تعامل برامج قراءة المحارف البصرية على أبناط أو أشكالٍ Eee‏ من 
الحروف. 

- غموض النصوص المطبوعة؛ الأمر الذي يؤدي إلى حدوث الكثير من الأخطاء في 
عملية قراءة المحارف. إلا أنه يمكن التغلب على هذه المشكلة بمراجعة النصوص 
عقب قراءتها ضوئيًا. 
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۳. التحميل مباشرة من الشبكة العنكبوتية. حيث يمكن اعتبار الشبكة العنكبوتية 
SUERTE E EET‏ ريسم ارات ECCE PPP TEC‏ 
استخدامها في البحث والتحليل )2003 l (Kilgarriff & Grefenstette,‏ 
Ul‏ إذا كانت المدونة اللغوية e£‏ لنصوص منطوقة» OP‏ ذلك يستنفد الكثير من 
الوقت؛ لما يتطلبه من تسجيل النصوص Lai‏ ونسخها transcripting‏ ويتم نسخ 
النصوص بإحدى هذه الطرق: 
.١‏ النسخ اليدوي: فقد قدر البعض أن ela‏ من الكلام Jall‏ تتراوح بين ٠٠٠٠١‏ 
إلى 16٠١‏ كلمةٍ تأخذ نحو يومين لنسخهاء وهذا يتوقف بالطبع على نوع الحديث. 
۲. النسخ الآلي: يمكن نسخ النصوص باستخدام برامج الإملاء الآلي (كلامٌ إلى 
نصوص | .(speech-to-text‏ 
۳. النسخ الصوتي: 
- باستخدام رموز بديلةٍ للألفباء الصوتية phonetic alphabet‏ وهذا à Š ls‏ 
تخزين النصوص العامية» أو اللهجية» وكذلك لغة الطفل. 
- أو بإضافة رموز UYU‏ على منعطفات الحديث من إيماءاتٍ» وتداخلاتِ لفظية 
وصفاتٍ أخرى غير لفظية» ووقفيء وتردد... وما شابه ذلك من ظواهر تتسم بها 
النصوص المنطوقة والحوارات. ويوضح ذلك الجدول رقم Garg; Marti-) )١(‏ 
.(novski & Robinson, 2004‏ 
الجدول رقم (Y)‏ الأكواد المستخدّمة في المدونات اللغوية المنطوقة ووظائفها 


الكود الوظيفة 


f MT 1 ET «$1»‏ . 
>$2< للإشارة إلى كل متحدث وفقا لترتيب سماع أصوات 

»$3« كل منهم. 
+ للإشارة إلى وجود مقاطعة أثناء الحديث؛ حيث 


توضع علامتان؛ إحداهما في بداية المقاطعة» والأخرى 
بعد انتهاء المقاطعة والاستطراد في الحديث. 
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الكود الوظيفة 
= للإشارة إلى الكلات المبتورة truncated‏ مثل: 
=L ls‏ 
>< للإشارة إلى الكلام غير المفهوم. مثل: هذا يعني أن 
>9< 
«ES‏ صفير <SE>‏ | للإشارة إلى المعلومات اللغوية الإضافية. مثل: نباح 
كلب» TD Ses‏ صوت سيارة مسرعة... والتي 
تتحدد مدى أهميتها وفقًا للغرض من المدونة اللغوية. 
التحقق من النصوص التي تم جمعها 

قد تتداخل طرق جمع النصوص مع بعضها البعض في الكثير من الأحيان. dio‏ كل 
الحالات LY‏ من مضاهاة ومراجعة وتدقيق النصوص جيدًا؛ الأمر الذي يزيد من 
الوقت والجهد المستنفدين في إنجاز عملية جمع النصوص» ولاسيا المنطوقة منها. ولذا 
يضطر عادة القائمون على المدونات اللغوية المنطوقة إلى تقليل حجم العينة للحد الأدنى 
الذي يسمح معه بتمثيل المجتمع؛ توفيرًا للوقت والجهد. ولذا نجد أيضًا أنه مهما بلغ 
حجم المدونات اللغوية المنطوقة فإنه يظل عادة أقل من نظيره المكتوب )& O'Keeffe‏ 
(Farr, 2003, pp. 390-95‏ 
حفظ النصوص ني ملفات 

يتم حفظ النصوص عادةً» سواءٌ أكانت مكتوبة أو منطوقةء في الشكل البسيط plain‏ 
aY format‏ الشكل الأنسب والأكثر مرونة في التعامل مع ختلف البرمجيات. كما أنه 
يتم Bole‏ ضغط ملفات النصوص بعد حفظها لتوفير المساحة التي تشغلها على القرص 
الصلب (Wynne, 1997) Hard Desk‏ 


Ji T ke‏ ص 
تواجه الكثير من لغات النصوص المكتوبة بعض المشكلات في تشفيرهاء ولاسيا 
التمثيلات الخاصة special characters‏ منها. ولذا طسوت بعض الحلول. منها إيجاد 
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مواصفاتٍ معيارية تحكم عملية تشفير التمثيلات في المدونات اللغوية» مثل مواصفة 
الآيزو ISO‏ لتشفير التمثيلات» ونظام الشفرة الموحدة (Pinkas, 2014) Unicode‏ 
الأمر الذي من شأنه أن بيسر عمليات المعالجة التي ستتم على هذه النصوص لاحقا. 

هذاء ويمكن الاطلاع على الدراسات التي تناولت كيفية إنشاء وإتاحة المدونات 
اللغوية» ولاسيم| العربية منهاء بالرجوع إلى الفصل الخامس. 
el yl‏ المدونات اللغوية 

ثمة أنواعٌ ختلفة للمدونات اللغوية؛ فهناك من يقسمها تبعًا لطريقة معالحة 
نصوصها إلى: مدونات لغوية 3559 annotated‏ أو مدونات لغوية مُرَمَّرْةِ marked-‏ 
eup‏ ومدونات لغوية خام raw‏ 

وهناك من يقسمها GS‏ للغات النصوص التي تحوبها إلى مدونات لغوية أحادية 
adi‏ ورات ل هار و رت alena‏ 

ويقسمها البعض الآخر تبعًا للغرض من استخدامها إلى نوعين: 
مدونات 240 اختبارية Test Corpora‏ 

عبارةٌ عن رصيدٍ من النصوص الأصلية أو invented zlii‏ التي تُستخدم في 
اختبار» أو تجريب» أو تقييم» أو تقييس الأداء. وتسمى LA‏ مجموعات الاسترجاع 
التجريبية» أو مجموعات الاختبار test suits collection‏ 
مدونات لغو 1 Research Corpora FON‏ 

عبارة عن رصيدٍ من النصوص الأصلية التي تُستخدم في إجراء تجارب بحثية من 
أجل تطوير المعرفة؛ حيث تستخدم كونا قاعدة للتحليل الفكري بصفتها مستودعًا 
للغة الطبيعية. وينقسم هذا النوع إلى أربعة أنواع من المدونات اللغوية: 
مدونات لغو General Corpora FP i‏ 

تضم أكبر قدرٍ ممكنٍ من النصوص في لغةٍ ماء على اختلاف أنواعها types‏ سواءٌ 
أكانت نصوصًا مكتوبة أو نصوصًا منطوقة» أو كلتيهما. وتُستخدم المدونات اللغوية 
العامة غالبا كونها مصادر مرجعية في إنشاء كتب قواعد اللغة» والقواميس» وغيرها؛ 
ولذا (Sas‏ عليها أحيانًا المدونات اللغوية المرجعية. مثل: المدونة اللغوية الوطنية 
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البريطانية )2015( British National Corpus (BNC)‏ التي تشتمل على أكثر من ٠٠١‏ 
مليون هيكل AS‏ 
مدونات Qux‏ وا 

تحوي نصوصًا من نوع معينٍ (مقالات أكاديميةء أو محاضراتٌ» أو Due‏ 
تحريرية... إلخ). وقد يكون هذا النوع من النصوص محددًا بفترة زمنية» أو بمستوى 
اجتماعي» أو بتخصص موضوعي . ويتسم هذا النوع بأنه أصغر حجًا مقارنة بالمدونات 
الور العامة 

ويقوم عادة الباحثون أنفسهم بإعداد هذا النوع من المدونات اللغوية من أجل التحقق 
من نصوصها. وهم في ذلك غير مقيدين بدرجةٍ محددةٍ من التوغل في التخصص. وما 
يقيدهم فقط هو نوع النصوص التي يقومون بتضمينها. كأن يقوم باحثٌ مثلًا بتجميع 
نصوص مقالات الدوريات العلمية في تخصصه»ء دون نصوص الرسائل العلمية» أو 
غيرها من أنواع مصادر المعلومات الأخرى. 

ومن أقرب الأمثلة لهذا النوع المعجمٌ المفهرس لألفاظ القرآن الكريم التابع لمجمع 
الملك فهد لطباعة المصحف الشريف. 
مدونات لغو 464 Historic ix‏ أو تعاقية Diachronic‏ 

وهي تحوي نصوصًا تنتمي إلى فتراتٍ زمنية معينة؛ بمدف التحقق من تطور الكلمات 
والمصطلحات عبر فتراتٍ زمنية محدّدة. وهذا النوع من المدونات اللغوية يجب أن يشكل 
mm‏ لأي عمل معجمي تاريخي يعتمد على الاستقراء المنهجي. . ومن أمثلتها مدونة 
هيلسينكي للغة الإنجليز Helsinki Corpus of English Texts à,‏ التي تضم نصوصًا 
del‏ ,2 قدب ورد (8:18): sadly‏ العا comes.‏ اللخرية الاتجليزية i2 Ji‏ 
Jill A Representative Corpus of Historical English Registers (ARCHER)‏ 
تشتمل على نصوص للإنجليزية البريطانية والأمريكية للفترة ما بين عامي 17٠١‏ و WA‏ م. 
مدونات لغوية راصدة Monitor‏ 

يعد هذا النوع امتدادًا للمدونات اللغوية التاريخية؛ إذ إنها تراقب أو ترصد 
التطورات التي تطرأ على كلمةٍ أو مصطلح ما بشكل يوميء أو أسبوعي؛ أو شهري» 
أو سنوي. ولذا يُطلق على هذا النوع Ekat‏ اسم coU ALD‏ اللقوية د ارات 
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Global ومن أمثلة هذا النوع المدونة الإنجليزية الدولية الراصدة‎ “open-ended 
Longman ومدونة لونجان للغة الأمريكية المكتوبة‎ English Monitor Corpus 
بناء المعاجم اللغوية؛ إذ إنها‎ des ويفيد هذا النوع‎ . Written American Corpus 
تمكن صانعي المعاجم من المتابعة الدقيقة لكل ما هو جديدٍ من كلماتٍ داخلةٍ على اللغة»‎ 
أو تلك الكلمات التي تتغير معانيها عبر الوقت.‎ 
Educational Corpora RE à مدونات لغو‎ 

تخدم فئة معينة من المستفيدين» وهم فئة دارسو ومُدَرِسو اللغات على السواء. وتضم 
توفي من oU gal‏ اللفرية: 
مدونات الدارسين (للغات) Learner Corpora‏ 

عبارة عن رصيدٍ من النصوص التي أعدها متعلمو اللغات. ولذا فهي تضم في 
العادة المقالات التي أنتجها هؤلاء المتعلمون. ويساعد هذا النوع من المدونات اللغوية 
في التحقق من الإنتاج اللغوي للطلاب من خلال المقارنة بين ما أنتجوه بعضهم 
البعض» وبين إنتاجهم اللغوي هذا وما ينتجه أبناء اللغة (وحينها LY‏ من توافر مدونةٍ 
لغوية مقارنة تضم نصوصًا أنتجها أبناء اللغة). 

ومن أبرز الأمثلة على هذا النوع المدونة اللغوية الدولية لدارسي الإنجليزية 
International Corpus of Learner Englsih (ICLE)‏ التي تضم مقالاتِ لمتعلمي 
الإنجليزية ذوي الأصول المختلفة (فرنسية» وسويدية» وألمانية» وغيرها). حيث تتم 
مقارنة هذه المقالات مقابل مدونةٍ لغوية مقارنةٍ لمقالاتٍ كتبها أبناء اللغة الإنجليزية» 
وهى مدونة لوفان لمقالات الإنجليزية الأصلية Louvain Corpus of Native‏ 
.English Essays LOCNESS‏ 

ومن الممكن أيضًا استثار هذا النوع من المدونات اللغوية في التحقق من الأخطاء 
اللغوية لدارسي اللغات؛ وذلك عن طريق وسم الأخطاء error tagging‏ لما قام بإنتاجه 
الطلاب من مقالاتٍ. ومن ثم يمكن استرجاع وتقييم الأخطاء اللغوية التي يقع فيها 
دارسو لغةٍ ما على ختلف مستويات وأنواع هذه الأخطاء. الأمر الذي يُمّكن المعلمين 
والقائمين على العملية التعليمية من التحقق من هذه الأخطاء وأسبابهاء ومن ثم اتخاذ 
القوان Coal‏ بخان cL ls‏ وإمكانية افا uisa‏ 
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ومثال على هذا النوع من المدونات اللغوية مدونة دارسي كامبريدج Cambridge‏ 


-Learner Corpus‏ ومن أبرز الأمثلة العربية على هذا النوع المدونة اللغوية لمتعلمي 
اللغة العربية Arabic Learner Corpus‏ التي أعدتها جامعة ليدز. 
مدونات D‏ $45 أو تدويسية Pedagogical Corpora‏ 

تتكون من كل ما Gao‏ له دارسو ia‏ ما من نصوصي. أي أا تضم كل الكتب» 
والمواد التعليمية» والتدريبات» والمواد السمعية والبصرية التى استخدمها هؤلاء 
الطلاب. وهكذا يتمكن الطلاب من استرجاع ilz coti ils‏ لأي كلمة أو 
عبارةٍ تعلموها خلال فترة الدراسة. الأمر الذي يزيد من وعيهم وإدراكهم لما تعلموه. 
كما يمُكن استخدام هذا النوع أيضًا في المقارنة بين محتواه وبين ما تحويه مدونة لغوية عامة 
أو مدونة لخوية لنصوص مجمّعةٍ من أبناء اللغة؛ وذلك بهدف التأكد من أن ما يتعرض 
له الطلاب يعكس C‏ الواقع اللغوي المستخدم في المجتمع Hunston, 2002, pp.)‏ 
Blecha, 2012, pp. 11-22; MacMullen, 2003‏ ;14-17(. 

يُذكر أن هناك نوعًا del‏ في التطور يُطلق عليه ما وراء المدونات اللغوية meta‏ 
sÍ corpora‏ مدونة المدونات اللغوية corpus of corpora‏ وهو عبارة عن مدونةٍ لغوية 
Elaine‏ على واجهة استخدام تكن من البحث والاسترجاع في عددٍ من المدونات اللغوية 
بغرض إجراء تحليلٍ فيا بينهاء أو لتصميم أدوات تحليلٍ معيارية )2003 MacMullen,‏ 


الاستخدام المنهجى للمدونات اللغوية 

بعدما تم التأكد من أوجه الإفادة من المدونات اللغوية في ختلف المجالات» وكذلك 
مراحل الإنشاء» والأنواع» يطرح هذا السؤال نفسه: هل المدونات اللغوية منهج أم 
"s‏ 

غير إن الكثير من الباحثين في هذا التخصص ينظرون إلى المدونات اللغوية وفق 
الطريقة المنهجية التي يتم توظيفها في التحليل. فعلى سبيل المثال يرى البعض Biber)‏ 
(Conrad & Reppen, 1998, p. 4‏ أن المدونات اللغوية هى مقاربة منهجية approach‏ 
تتسم بأربع خصائص رئيسة» وهي أنها: 

.١‏ تجريبية أو empirical Gal,‏ في تحليلها للنصوص القائمة على اللغة الطبيعية. 

. تستخدم Re pat‏ ضخمة من النصوص كونها أساسًا لعملية التحليل. 


هل 
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۳. تستثمر الحاسب الآلي في التحليل. 
.٤‏ تعتمد على كل من المنهج الكمي وال منهج النوعي في التحليل. 


الخلاصة 

ركز هذا الفصل على المدونات اللغوية كونها Bol‏ بحثية ومقاربة منهجية. وني هذا 
السياق تم تسليط الضوء على مجالات الإفادة منها في کل من: علم اللغة» وتدريس 
وتعلم اللغات» وعلم اللغة الاجتماعي؛ وصناعة المعاجم» والترجمة» ودراسة التوجهات 
الفكرية (الأيديولوجيا»» وعلم المعلومات» وصناعة المكانز» والمعلوماتية الجنائية. كا 
ناقش الفصل مراحل إنشاء المدونات اللغوية وأساليب تطويرهاء وأنواعها المختلفة 
(مدونات لغويةٌ اختباريةء ومدونات لغوية بحثيةٌ» ومدونات لغوية تعليمية)» وكيفية 
استثارها منهجيًا. 
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eU الفصل‎ 


معالجة البيانات اعتمادًا على المدونات اللغوية 


التمهيد 
عمليات معالحة البيانات على مستوى الإدخال 
ترميز المدونات اللغوية 
تحشية المدونات اللغوية 
أهمية تحشية المدونات اللغوية 
النقد الموجه لتحشية المدونات 
طرق تحشية المدونات اللغوية 
أنواع تحشية المدونات اللغوية 
عمليات معالحة البيانات على مستوى الإخراج 
تحشيف SII‏ 
تكشيف النصوص 
تكشيف الكلمات المفتاحية في السياق 
المشكلات الفنية في تكشيف المدونات اللغوية 
المشكلات اللغوية في تكشيف المدونات اللغوية 
قوائم تردد الكلمات 
توليد الكلمات المفتاحية 
تحليل التجمعات العنقودية 
الخلاصة 


à y 


qu. 
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ا 
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التمهيد 


تحققنا في الأجزاء السابقة للكتاب هذا من المدونات اللغوية» وذلك في ضوء ماهيتها 
وأعميتهاء ومميزاتهاء ومواصفاتهاء وما يمكن أن تقدمه وتجيب عنه» واستخداماتها في 
مجالات المعرفة المختلفة» ومراحل إنشائهاء وأنواعها. ثم نأتي بهذا الفصل لنحاول فيه 
توضيح كيفية معالحة البيانات في المدونات اللغوية. 

وبو جو عام» تتم معالجة البيانات اعتمادًا على المدونات اللغوية على مستويين؛ مستوى 
الإدخال» ومستوى الإخراج. وتشمل عمليات معالجحة البيانات التي تتم على مستوى 
الإدخال كلا من عمليتى ترميز المدونات اللغوية amarking-up textual corpora‏ 
وتحشية المدونات Qu annotating textual corpora AU‏ تشمل عمليات 
معالحة البيانات التي تتم على مستوى الإخراج كلا من عمليات تكشيف الكلمات 
«word indexing‏ ووضع eSI‏ في قوائم cword listing‏ وتوليد الكلمات المفتاحية 
ckey words generation‏ وتحليل التجمعات العنقودية clustering‏ 
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عمليات معالجحة البيانات على مستوى الإدخال 

تعد عمليات معالجة البيانات في المدونات اللغوية على مستوى الإدخال من أصعب 
العمليات الفنية في إعداد وتجهيز النصوص. ذلك لأنها تتطلب تدخلًا بشريًا في معظم 
اها وا فی ما li aM | af Rally ed cl M‏ اللكوية ال 
بمثل هذه العمليات الفنية تنتج عنها تحليلاتٍ ونتائج غاية في الأهمية إذا ما أريد الوقوف 
o a‏ يعن iios sacas Lad ad auia osi au LB‏ 
Ae,‏ 


ترميز المدونات اللغوية 

يُقصد به إضافة e pat‏ من حقول الميتاداتا أو الأكواد المعيارية إلى النصوص أو الوثائق 
المختزنة في المدونات اللغوية» بحيث تتوافر معلومات عن نصوص هذه الوثائق تتيح التحكم 
à‏ أشكاها formats‏ وطرق معالحتهاء مثل: إعطاء معلوماتٍ عن مصدر المدونة اللغوية» 
وتاريخ النص» ونوع النصء والمكان» وعدد المتحدثين» وتاريخ Sul‏ والمهنة» والمستوى 
التعليمي... إلخ. ويمكن وضع هذه الحقول وبياناتها في بداية كل ملف header KÍ y‏ أو في 
ملفاتٍ مستقلة مرتبطة بالملف الأساس )2014 (Margaretha & Lüngen,‏ 

ولترميز المدونات اللغوية أهميةٌ iele‏ يمكن إيضاحها في جموعة النقاط التالية: 

اد أن cr yall cotta‏ اال Aat‏ الايا غل She T sa al ise dn‏ 
«authentic‏ أي à‏ ضوء الاستعمال الطبيعى للنصوص . إلا أنها بمجرد اختزانها 
في الملفات يكون قد تم إخراجها من LL.‏ الطبيعية؛ Geo‏ دور الميتاداتا با 
تقدمه من حقول للوصف لتستعيد هذه السياقات المفقودة» وتمكن القائمين على 
المدونات اللغوية من ربط النصوص ببذه السياقات مرة أخرى. وكلما ازدادت 
حقول الوصف ف الميتاداتاء ازدادت إمكانية تعويض الفقد السياقى للنصوص» 
وبالتالي ازدادت إمكانية إعادتها للاستعمال الطبيعي الذي ولدت فيه. 

E:‏ غل e Ii‏ من pal li ol‏ يكم ile‏ ف فا JS‏ يعوا ف ره لا 
أن حقول الميتاداتا توفر معلوماتٍ إضافية عن هذه النصوصء تشمل بين ما 
تشمل: نوع النصوص المكتوبة» والعوامل والمتغيرات الاجتاعية واللغوية 
التي تحكم النصوص المنطوقة... إلخ. 
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Y‏ يتم اللجوء إلى ترميز المدونات اللغوية عندما يتم حذف الجداول وغيرها من 
الإيضاحيات من النصوص المكتوبة» فيشار إليها بعلاماتٍ تعويضية تدل 
على أماكنها وأنواعها. e‏ يتم ترميز النصوص المنطوقة للتعبير عن الملامح 
المساعدة المميزة للحديث؛ كالضحك. والبكاء» والتثاؤب... إلخ. 
5. إضافة تعليقاتِ خاصة بالأعمال التحريرية التي تتم على المدونة اللغوية. 
ومن أشهر المواصفات المستخدّمة في ترميز المدونات اللغوية إطارٌ كاكاو «COCOA‏ 
ومعيار دبلن كور Dublin Core‏ ومعيار تشفير المدونات اللغوية Corpus Encoding‏ 
«Standard CES‏ ومبادرة تشفير النصوص «Text Encoding Initiative (TED‏ 
eiat,‏ الأخيران dole‏ لغة الترميز الحَمَمَة القياسية SGML‏ ولغة الترميز القابلة 
للتمديد (Margaretha & Lüngen, 2014) XML‏ 

يُذكر أنه في ضوء ترميز المدونات اللغوية يمكن تقسيمها إلى نوعين: مدونات لغوية 
craw corpora ee‏ ومدونات لغو m‏ مرمز : .marked-up corpora‏ 
تحشية المدونات اللغوية 
يقصد بها إجراء تحليل لغوي لنصوص المدونات اللغوية لاستخراج بعض 
التفسيرات والمعلومات اللغوية؛ مثل: وسم أقسام الكلم part-of-speech (POS)‏ 
8 والااعراب التركيبى» وغيرهما... 

وتعرف تحشية aadi‏ اللغوية Corpora Annotation‏ بأما مجموعة o^‏ 
التحليلات والمعا لجات اللغوية التي تتم على النصوص دف إضفاء توصي دقيق 
عليها. ومن الممكن أن تتم تحشية المدونات اللغوية في عدة مستوياتٍ وبأشكالٍ 
ختلفة: فعلى المستوى الصوتي» من الممكن أن تكون التحشية للمقاطع الصوتية 
(تحشية due‏ أو تحشية للخصائص العّروضية prosodic features‏ (تحشية 
Mise‏ وعلى مستوى الصرف» من الممكن أن تتم التحشية للسوابق «prefixes‏ 
واللواحق csuffixes‏ والجذور croots‏ والجذوع stems‏ (تحشية صرفية). وعلى مستوى 
المعجمء فتتم التحشية لأقسام الكلم parts-of-speech‏ (وسم أقسام الكلم POS‏ 
tagging‏ أو للأسر اللغوية lemmas‏ (تجريد الكلمات أو وضع الكلمات PE‏ لغوية 


TR 
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«(lemmatization‏ أو للحقول الدلالية (تحشية دلالية). des‏ مستوى النحوء فتتم 
التحشية بالتحليل التركيبي syntactic analysis‏ (التحليل الإعرابي «parsing‏ وبنوك 
أشجار النصوص ا وتقويس الكلمات (bracketing‏ أما على مستوى 
الخطاب discourse‏ فتتم التحشية للعلاقات الإضارية anaphoric‏ (تحشية المصاحبة 
المرجعية cCcoreference‏ أو المعلومات البراجماتية أو التداولية (تحشية lel y‏ أو 
الخصائص الأسلوبية» مثل عرض الكلام والمعتقدات (تحشيةٌ أسلوبية). 

وتعد تحشية أقسام الكلم أشهر هذه الأنواع وأكثرها استعمالًا. كما أن per‏ 
التركبين i‏ في التطور والتطبيق على نحو متسارع» بيدا لا تلقى أنواعٌ أخرى 
للتحشية الاهتمام المطلوب؛ كالتحشية الخطابية والتحشية البراجماتية (2012 (Abbas,‏ 
.(Zaghouani & Dukes, 2014)‏ 


أهمية تحشية المدونات اللغوية 

تمثل التحشية قيمة مضافة للأسباب التالية: 

.١‏ تتيح إمكانية استرجاع واستخراج المعلومات وفقا لنوع التحشية الذي تنتمي 
إليه كل كلمةء فمثلًا من الصعوبة بمكانٍ أن نسترجع الصفات الموجودة على 
يسار الكلمات اعتمادًا على الشكل الإملائي أو السياق فقط» ولكن الأمر 
يتطلب التحديد المسبق بوسم «صفة)؛ فلولا هذا الوسم لكان من الممكن أن 
تكون النتيجة المسترجعة لمفعول أو فاعل أو غير ذلك من الأسماء. 

.١‏ تفيد المحللين والباحثين في إجراء تحليلاتٍ إضافية على لغاتٍ يجهلونها 
(Leech, 1997, p. 2)‏ فعلى سبيل JULI‏ يمكن لباحثِ يجهل اللغة العربية أن 
يجري بعض التحليلات على مدونة لغوية «S tagged iago‏ من التحقق 
من أقسام الكلم بها دون الحاجة إلى الإلمام باللغة العربية S GU]‏ 

Y‏ ربا تؤدي تحشية المدونات اللغوية وظائف أخرى غير التي أنشأت من أجلها؛ 
بحيب to ANT ele lm VI‏ 


A= 
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النقد الموجه لتحشية المدونات اللغوية 
على الرغم ما تمثله تحشية المدونات اللغوية من أهمية» إلا أن هناك بعض الانتقادات 
التي وجهت هاء منها: 

.١‏ أن تحشية المدونات اللغوية تؤدي إلى نوع من التشويش على النصوص المسترجَعة؛ 
cat Ll,‏ أن كرت Sn‏ طريقة أخرى تمرض بعقتضاها اللصوص في شكلها 
البسيط cplain text‏ بحيث تكون التحشية على هامش النصوص» أو في شكل 
إشاراتٍ labels iste‏ وهذا بالفعل ما التزمت به بعض برمجيات معالحة 
المدونات اللغوية في الآونة الأخيرة» مثل: برنامج وورد سميث «WordSmith‏ 
وبرنامج مونو كونك «MonoConc‏ وبرنامج سارا SARA‏ وبرنامج زايرا 
8, وغيرهاء والتي تتيح إمكانية إخفاء التحشية عن نتائج البحث المسترجعة 
بحيث تتاح النصوص البسيطة فقط )94 (Hunston, 2002, p.‏ 

۲. أن التحشية قد تفرض على المستفيدين من المدونات اللغوية تحليلًا لغويًا يمثل 
عا eile‏ قعل ei JI‏ مو اانا ف اللات ال e‏ ق امن ال 
للنصوص. إلا أن ذلك ليس بالضرورة أن يَلقى قبول كل المستفيدين. ولذا 
وجب أن يتمكن المستفيدون من إظهارها أو إخفائها 5 3( أرادوا McEnery,)‏ 
p. 456‏ ,2003(. 

*. قد تتحول التحشية من کوا ias‏ مضافة إلى كوا 4.3 $45 overvalue‏ 
تقلل من فرص إتاحةء etu s‏ وتمدد المدونات اللغوية؛ نظرًا لما تتطلبه عملية 
التحشية من جه ووقتٍ وتكلفةٍ )92-93 .(Hunston, 2002, pp.‏ 

.٤‏ قد لا تكون التحشية بالدقة والاتساق المطلوبين. وأيّا كانت الطريقة التي تتم 
بها التحشية» فإنه لا يمكن بحال أن تؤدي إلى نتائج دقيقة ومتسقة مئة با ئة 
(Hunston, 2002, p. 91)‏ ولذا ينصح الكثيرٌ بتدخل الاختصاصيين عقب 
التحشية الآلية أو شبه الآلية بالمراجعة والتدقيق للحد قدر الإمكان من نسبة 
الأخطاء. 

ومن الجدير بالذكر أن تحشية المدونات اللغوية جعلت البعض يقسمها إلى نوعين: 


á 


tox VP. : RU ru E oa :‏ 
مدونات لغوية 159 $ «annotated‏ ومدونات لغوية غير تحشوةٍ أو خام. 


xA 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————————— $5‏ 


طرق تحشية المدونات اللغوية 

تتم تحشية المدونات اللغوية بطرقٍ ثلاث: الطريقة الآلية» والطريقة شبه الآلية» 
والطريقة اليدوية. ففي الطريقة الأولى تقوم البرمجيات بالتحشية Us‏ على قواعد 
وخوارزميات تم إعدادها مسبقًا بواسطة مبريجين. وعلى الرغم من أن هذه الطريقة 
مكلذ oir ag‏ أنه محري Lee‏ عم هذه 3s dcos disi‏ 
تحشية كم ضخم من النصوص بالسرعة والاتساق المطلوبين. وهذه الطريقة تعمل 
بكفاءةٍ عألية مع بعض اللغات؛ كاللغة الإنجليزية» والفرنسية» والأسبانية بمعدل خطأ 
قد لا يتجاوز ۳/. وهنا قد يتدخل البشر في إجراء التصويبات المطلوبة» حيث توفر 
بعض برمجيات التحشية إمكانية التدخل البشري لحل حالات الخطأ أو اللبس التي 
تستعصي على البرامج الآلية. وينتج عن هذه الطريقة شبه الآلية نتائج مسترجعة أكثر 
E e‏ الطريفة الآليه كي 

أما التحشية اليدوية فتتم بالاعتماد كلية على محلل بشري دون أي itid‏ . ونظرًا إلى أن 
هذه الطريقة مكلفة ومستنفدةٌ للوقت» Jag‏ استخدامها مع المدونات اللغوية الصغيرة 
(Hovy & Lavid, 2010, pp. 13-14; McEnery, Xiao & Tono, 2006, p. 33)‏ 


el yl‏ تحشية المدونات اللغوية 

هناك أنواعٌ عدة لتحشية المدونات اللغوية» منها 
وسم أقسام الكلم parts-of-speech (POS) tagging‏ 

يُطلق عليه أيضًا الوسم القواعدي «grammatical tagging‏ أو الوسم الصرفي 
النحوي .morpho-syntactic tagging‏ ويتم فيه تحديد القسم الذي تنتمي إليه كل 
كلمةٍ hal)‏ وفعل» وحرفٌ). ویعد و سم أقسام الكلم أول نوع استخدم في تحشية 
المدونات اللغوية» والأكثر شهرة بين الأنواع الأخرى. كا أنه يُشكل الأساس الذي 
تتم من خلاله أشكال وأنواع التحليل الأخرى. وتبداً أوجه الإفادة من وسم أقسام 
الكلم بإزالة اللبس disambiguation‏ عن الكلمات المتجانسة» وحتى احتساب فئات 
الكلمات داخل النصوص . وتعتمد الكثير من تحليلات المدونات اللغوية على هذا النوع 
من التحشية» مثل تحليل التلازم (Hunston, 2002) collocation ^" c Ul‏ 


Y‏ - يُسميه البعض أيضًا: تلازم المصطلحات. أو التلازم المعجميء أو المصاحبة اللغويةء أو التلازم اللفظي. وهي كلماتٌ 
تتصاحب أو تتلازم أو تقترن lo‏ بكلماتٍ أخرىء سواءٌ لسببء أو دون سبب ظاهر أو منطقي. 


-V +- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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ومع بلوغ وسم أقسام الكلم مراحل متطورة آليّاء فإنه يمكن أن يصل معدل التحقيق 
à‏ النتائج المسترجعة cb gs dl‏ عالية تعتمد عليها الأبحاث والدراسات. وتعد أداة 
وسم أقسام الكلم المعروفة بنظام كلوز CLAWS‏ من أشهر الأدوات المعالجة للغة 
الإنجليزية التى قامت عليها جامعة لانكستر (1987 (Garside, Leech & Sampson,‏ 

وتزيد بعض الخصائص المميزة للغة العربية من أهمية هذا النوع من أنواع تحشية 
المدونات اللغوية. فظاهرة الجناس» والحروف غير KEU‏ والسوابق واللواحق في 
اللغة العربية» على سبيل المثال» تؤدي إلى حدوث الكثير من المشكلات أثناء عملية 
التحليل. ولكن مع وسم أقسام الكلم يمكن التغلب على مثل هذه المشكلات 
(Van Mol, 2000, pp. 1-4)‏ 
e eus‏ يكون التحليل bel id‏ وت )2011 e & Paio‏ 
العربية ويمكننا الاستفادة منهاء مثل: ضمير» واسم موصول» واسم مشتق.... وفعل 
لازم» وفعل متعد... وحرف جر» وحرف نصب» وحرف جزم... ويجب وسم الكلمات 
بمثل هذه التصنيفات لإجراء كثير من الدراسات والأبحاث „(Sawalha & Atwell)‏ 
ومن أشهر أدوات وسم أقسام الكلمات العربية برنامج كوالتر .Buckwalter‏ 

z PE d " * .و‎ 5 xf N Pid P. 

. = أو علامة &» أو علامة‎ cunderscore سفلية‎ ib بالكلمة عن طريق شر‎ tag الوسيمة‎ 
:(Khoja, Garside & Konwles, 2001) كا في النص التالي الملأخوذ من صحيفة الجزيرة‎ 
بن_‎ NP xà NCSgMND di) NCDuMGD o2 NCDUMAD الحرمين_‎ NCSgMN1_مداخ‎ VPSg3M cw 
PPr ,J NCSgFGI iui NCSgENI ás» NP :. R J NCSgMAD jJ NCSgMAI xe NCSQMNI 
NCSgFGI íus«» NCSgMNI od) RF ssij RF ji NCSQMGD . od) NCSgFGI iai 
PPr NCPlFGI NPrPSQ3M »2u NCSgMND iJ NCSgMAD as) PPr NCSgFGI ilis RF liy 
وباس‎ PPr NCSgMGI NPrPSg3M 4-2) NCSQMAD gad NCSQMND 4i) PC VPSg3M cl, 
السعودية_‎ NCSgEGD &uJ NCSJFGD lud PC NCSgFGI tsy NCSgMGI c: PC PPr NCSOM 

úd ^ NCSgMAI bu.  NCPIMND ,Ui3 ^ NCSgENI oeil PP e  NCSgFGD 


v», PC NCSgFGD $i.J, NCSgFGD inal NCSQMNI jJ» PPr NCSgEGI NPrPSg3M 
PU . NCSgMN iJ NCSgMND J»:j! NCSgMND $2) RF liy PC PPr NCSQMGI 


الاب 


هذه الطبعة إهداء من المركز 
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وتشير أول وسيمة (VPSg3M)‏ للفعل «بعث» في هذا النص على سبيل المثال إلى الآتي: 


VP X Verbal Phrase ile ile 
Sg Singular مفرد‎ 
3 Third Person غائب‎ 
M Masculine ENT 


كا يمكن هذه الكلمة أن يتم وسمها باستخدام لغة الترميز الْعَمَمَةَ القياسية 

«SGML‏ أو باستخدام لغة الترميز القابلة للتمديد XML‏ كالتالي: 
>w/<ڊPOS=VPSg3M>ia <w‏ 

وتفضل بعض برمجيات المدونات اللغوية وسم أقسام الكلم باستخدام الشرطة 

السفلية eha‏ مثل وورد سميث «WordSmith‏ ومونوكونك .MonoConc‏ بينا 

تفضل ote‏ أخرى مثل: سارا Xairal s 5 5 SARA‏ استخدام لغة الترميز الْعَمَمَة 

القياسية SGML‏ أو لغة الترميز القابلة للتمديد .XML‏ 

ومن الأمور المهمة التي يتعين وضعها في الحسبان عند وسم أقسام الكلم هو كيفية 

تجزيء النصوص إلى هياكل من الكلمات -word tokens (tokenization)‏ ففي اللغة 

الإنجليزية تتم تجزتة هياكل الكلمات في النصوص المكتوبة عن طريق تحديدها delimit‏ 

بمسافةٍ قبلها وبعدها. ولكن في اللغة العربية نجد أن الكثير من كلماتها متصلة clitic‏ 

بضائر» أو أدوات عطف. أو حروف جر دون وجود مسافات بينها. ناهينا عن الطبيعة 

الاشتقاقية العالية التي تتميز بها العربية. مما يزيد الأمر تعقيدًا إذا ما أريد تحشية أقسام 

الكلمات العربية. ففي برنامج بكوالتر تتم تجزئة جملة مثل «وسيكتبونها» على النحو التالي: 

[CONJ + 

FUTUREPARTICLE + 

IMPERFECT VERB PREFIX + 

IMPERFECT VERB + 

IMPERFECT VERB SUFFIX MASCULINE PLURAL 


3RD PERSON + 
OBJECT PRONOUN FEMININE SINGULAR] 


فهذه الجملة المتصلة تتكون من حرف عطف (C9)‏ وأداة للمستقبل Co)‏ وسابقة 


VY 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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prefix‏ صر 3& (ی)» وجذع stem‏ (كتب)» ولاحقة suffix‏ صرفية (ون)» ومفعول به 
وقع ضميرًا (ها) )2005 (Mohamed & Kubler, 2010; Habash & Rambow,‏ 


تجريد الكلماتث lemmatization‏ 

هو أحد أنواع تحشية النصوص الذي يقوم باختزال أو إعادة الصور ا متصرفة المختلفة 
للكلمة الواحدة إلى صورتها المعجمية الأساس كا تظهر كونها مداخل معجمية. ويتم 
ذلك من خلال حذف الزوائد. فالأسماء ء يتم ردها إلى المفرد النكرة (المذكر إن «sal‏ 
مثل إرجاع: مشروعان» ومشروعات إلى «مشروع). والأفعال يتم إرجاعها إلى الماضي 
الغائب المفرد المذكرء مثل إعادة: يكتبان» ويكتبون واكتب... إلى الجذع «كتب). ومن 
هنا نجد أن تجريد الكلمات له أهميةٌ كبيرةٌ في الدراسات المعجمية وصناعة المعاجم بوجي 
عام )2012 (El-Shishtawy & El-Ghannam,‏ 

وتزداد الإفادة من تجريد الكلمات كلما ازدادت قابلية اللغة للاشتقاق. واللغة 
الخوية ig‏ عالية الاشتقاق؛ ولذا يؤدي تجريد الكلمات دورًا باررًا في معالجة نصوصها 
NR‏ أما لغةٌ أخرى مثل الصينية فهي غير قابلةٍ للاشتقاق؛ ولذا ليست هناك حاجةٌ 
N‏ با کال الإنجليزية فتتميز ببساطة نظامها الصرفي؛ 
ولذا ليست هناك صعوبة في تجريد كلماتهاء ولذا أيضًا قلا Jes‏ في المدونات اللغوية 
الإنجليزية إمكانية معالجتها من خلال تجريد كلماتها )1997 (Leech,‏ 


parsing |! ey! التحليل‎ 

بمجرد وسم أقسام الكلم في المدونات اللغوية فإنه يمكن وضع هذه الفئات 
الصرفية النحوية في مستوىّ أعلى من العلاقات النحوية. أي تحليل الجمل إلى مكوناتها 
constituents‏ الأساس. وقد يتم وضع هذه المكونات "m‏ بين toe il‏ ولذا 
يطلق على التحليل الإعرابي أحيانًا التقريس -bracketing‏ ويتم Ísle‏ التحليل الإعرابي 
الجمل L4‏ شك E‏ يطلق عليه: أشجار تركيب العبارة phrase‏ 
.structure trees‏ . وتتجمع هذه الأشجار مع بعضها البعض لتمثل الحمل والعبارات 
المكونة للمدونة اللغوية» وتسمى حينئذ: بنوك أشجار النصوص -treebanks‏ فمن 
RT‏ تحليل جملة «أيمن يدرس الدكتوراه» على النحو التالى O:‏ 


s-sentence - \‏ أي NP-Noun Phrase .ile‏ أي عبارة اسمية. VP- Verbal Phrase‏ أي عبارة فعلية. 
Det.-Determiner‏ أي المحدد أو الأداة. 


-yý- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
$5 ا 


VP NP 


N Det يمن يدرس‎ 


ومن أشهر بنوك أشجار النصوص العربية هو البنك الشجري العربي من جامعة 
بنسلفانيا )2003 (Maamouri, Bies, Jin, & Buckwalter,‏ يليه بنك براغ الشجري 
(Jan, et al., 2004)‏ وذلك الذي تم إعداده في جامعة ليدز البريطانية Dukes,)‏ 
(Atwell & Sharif, 2010‏ وذلك الذي تم إنشاؤه في جامعة كولومبيا الأمريكية 
.(Habash & Roth, 2010)‏ 

is y‏ بالذكر أن التحليل الإعرابي عملية فنية أكثر Jean‏ من وسم أقسام الكلم؛ 
لأن الأخير يمثل عملية فرعية من الأساس )1996 des (Leech & Wilson,‏ الرغم 
من ذلك OB‏ معدل التحقيق في النتائج المسترجعة من الأخير يكون عادةً أعلى & 
في الأول )2002 (Barbu, Evans & Mitkov,‏ ولذلك يتم عادة تصويب أخطاء 
المدونات اللغوية AGAI‏ يدويًا من أجل الارتفاع بمستوى التحقيق» كا هو JH‏ في 
بنك أشجار نصوص بن Penn Treebank‏ الذي أنشأه قسم الحاسب JYI‏ وعلم 
المعلومات التابع لجامعة بنسلفانيا University of Pennsylvania‏ . 

والتحليل الإعرابي Ll‏ أن يكون skeleton ÚK‏ أو تفصيليًا 16]831164؛ فالأول 
يقدم SEE‏ سطحيًا shallow‏ يقف عند حدود المكونات الأساس للجملةء كما في المثال 
السابقء UT‏ الثاني فيقدم تحليلا أكثر تفصيلا ينزل بمستوى التحليل للعبارة الاسمية» 
على سبيل المثال» ليبين العدد» والنوع... وغيرهما )2004 (Swift, Allen & Gildea,‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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التحشية الدلالية semantic annotation‏ 
تسمى أحيانًا وسم معاني .word sense tagging (JI‏ ويتم في هذا النوع 
من التحشية تخصيص مجموعةٍ من الأكواد التي تعكس الخصائص والحقول الدلالية 
لكلمات النصوص. وهذا النوع من الأهمية بمكانٍ في دراسات تحليل المحتوى. ويتميز 
بأنه أكثر صعوبة من وسم أقسام الكلمء والتحليل الإعرابي والنحوي؛ لأنه يعتمد 
JS‏ رئيس على المعرفة cknowledge-based‏ ويتطلب أنطولوجيات» ومعاجم» 


z 
z 


ومکانز معدةً Úle‏ كي يؤدي مهامه. 

وثمة نوعان على الأقل من التحشية الدلالية؛ يحدد النوع الأول العلاقات الدلالية بين 
المكونات الأساس للجمل داخل النصوصء كما هو في بنك أشجار نصوص بن السابق 
ذکره. ویطلق على هذا النوع أيضًا التحليل الإعرابي «semantic parsing JYI‏ ويعتبره 
البعض نوعًا من التحشية النحوية. od ca‏ النوع الثاني» وهو الأشهر استخدامًاء 
الخصائص الدلالية لكلمات النصوص )2003 (Thompson & Mooney,‏ 
تحشية المصاحبة المرجعية coreference‏ أو العائدية anaphoric‏ 

يعتبرها البعض أحد أنواع التحشية على مستوى الخطاب. ويطلق على المدونات 
اللغوية ذات هذا النوع من التحشية اسم المدونات اللغوية اة «annotated‏ والتي 
تتسم بمحدودية انتشارهاء على الرغم من أهميتها البالغة في تعيين علاقات الإضمار 
والمصاحبة المرجعية بين النصوص. cos‏ لا توجد غير أداةٍ وحيدة لمعالجة النصوص 
العربية في هذا الشأن» وهى الأداة التى طورها مايتكوف۷٥)انM‏ » وبيلجويث 
«Belguith‏ ومالحورزاتا Malgorzata‏ (1998). 

وتبتم هذه التحشية بتحديد العلاقة بين كيانين في النصو ve‏ € افا ا à yd‏ 
قبليةً anaphor‏ يشير إلى gus‏ آخر» يسمى JU‏ إليه referent‏ مذكور 4.3 antecedent‏ 
أو قد يكون إحالة à, pd‏ بعدية 1 يشير إلى YLS‏ مذكور بعده ke «postcedent‏ 
يكفل التّاسك والترابط بين النصوص من خلال اعتمادها على التكرارء أو الحذف, أو 
الإبدال أو التعويض.... ويتضمن ذلك: 

.١‏ الإحالة اللغوية الضميرية: تشمل ضمائر الغائب» وأسماء الإشارة» والأسماء الموصولة. 

ease SU VY‏ عدف عددنا duse‏ الخال duo ad]‏ 314.75 اسم علم؛ 

وتؤدي وظيفة معينة» مثل : الترادف» أو التعميم» » أو التخصيص... 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n———————————UUM /« |.‏ 


۳. الإحالة اللغوية المقارنة: تشمل: المحددات المعجمية» مثل: آخرء وأخرى. 
ووه كان قول أعذت نة واج في علم اللغةء والآخر في ele‏ 
المعلومات. وتشمل أيضًا أسماء التفضيل (الشاذلي» (4A‏ 

والمثال التالي لإحدى الإطارات schemes‏ المستخدمة في تحشية المدونات اللغوية 

:(Hammami, Belguith & Hamadou, 2009) للمصاحبة المرجعية‎ ET 


<p> 


c5» 


cexpide'e2' cat= "Np" c= sujet ^» /exp» 


pee Ju 

cexp ide"e3" cat«"pin"^ dist2"1" recs "true" > 
«ptr typez"^coref^ srcs^e2"^ /» 
ها‎ 

< ملاع / > 

,اشياء كثيرة 
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التحشية البر احماتية أو التداولية pragmatic annotation‏ 

تُعتبر أيضًا أحد أنواع التحشية على مستوى الخطاب. وهي تبتم أكثر ما تهتم 
بتحليل المرجعية reference‏ وتفسير وتوليد الأفعال الكلامية «speech acts‏ 
وعلاقات التركيب والترابط الخطابي» والافتراض )2000 (Bunt & Black,‏ 
وقليلة هى الدونات d eel oy‏ قاو تا teda‏ متها ais‏ ارات 
دعاء (Samy & González-Ledesma, 2008) ui,‏ تقديم إطار قائم على ال 
XML‏ حدقي XI Ida‏ هة الله cR pli ARUI zo y‏ حل nn‏ ى علامات 
الخطاب. ويقدم المثال التالى نمو ذجًا لتحشية إحدى علامات الخطاب في هذه المدونة: 
CONJUNCTION*PRONOUN‏ <-- وهي 


التحشية الأسلوبية stylistic annotation‏ 
يرتبط هذا النوع من تحشية المدونات اللغوية بالخصائص الأسلوبية للنصوص 
الأدبية )1997 (Leech, McEnery & Wynne,‏ من خلال ما يَعْرّف بتمثيل الكلام 
والأفكار» وطول الكلات» ومدى إثراء المغردات» والخصائص المعجمية للكلمات 


-۷ 
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والتمثيلات )2008 (Abbasi, Chen & Salem,‏ حيث يتم وضع النصوص d‏ 
فئاتِ؛ فئة النصوص الباشرة» وفئة النصوص الباشرة الحرة» وفئة النصوص غير 
المباشرة» وفئة النصوص الحرة غير المباشرة» وفئة تمثيل النصوص والكلام والأفكارء 
وفئة تمثيل الصوت والحالة الداخلية للنصوصء وفئة النصوص التقريرية report‏ 
وتفيد التحشية الأسلوبية كثيرًا في التحقق من النصوص مجهولة التأليف McIntyre)‏ 
et al., 2004‏ &( ونظرًا لصعوبة تطبيقها على النصوص بطريقة آلية» فإن التحشية 
الأسلوبية تتم Sole‏ بطريقةٍ يدوية. 
وسم الأخطاء error tagging‏ 

يرتبط هذا النوع من التحشية بالمدونات اللغوية لدارسي اللغات وتدريس اللغات 
بوجي عام. حيث يتم استخدام أكواد معينةٍ توضح نوع al‏ اللغوي في النصوص. 
الأمر الذي من شأنه أن يسهم في الكشف عن الأخطاء اللغوية التي يقع فيها دارسو 
اللغات باستمرار في المستويات المختلفة. وتختلف إطارات وسم الأخطاء من مدونة 
لغوية لأخرى وفقا لعدد وأنواع أكواد الأخطاء المستخدّمة. وبوجه عام» فإن أشهر 
أنواع الأخطاء: الحذف» والإضافة» وسوء الصياغة. فعلى سبيل JEU‏ تستخدم مدونة 
دارسي كامبريدج Cambridge Learner Corpus‏ الکود ۴ للدلالة على خطأ à‏ 
شكل الكلمة» والكود M‏ للدلالة على فقدان كلمة أو حرفي... والكود ۸ للدلالة على 
استبدال كلمة أو جملةٍ مكان أخرىء والكود IYW U‏ على كلمةٍ أو ila‏ غير ضرورية؛ 
والكود D‏ للدلالة على خطأ في تصريف الكلمة )2003 Nicholls,‏ 

أما في اللغة العربية فيمكن تصنيف الأخطاء اللغوية إلى: أخطاءِ صوتية» وأخطاءِ 
صرفية» وأخطاءٍ نحوية» slas] o‏ معجمية» وأخطاءٍ إملائية» وأخطاءٍ دلالية (العصيل» 
4 الععيق» (VAY‏ وقد استخدمت [حدى الدراسات الكرة 9]) للدلالة عل la‏ 
إملائى» والكود «ص» للدلالة على خطأ صرفي» والكود «ن» للدلالة على خطأ نحوي» 
وله € للدلالة على خط أسلوبي» 335903 «ت» للدلالة على خطأ في علامات 
الترقيم )2013 (Alfaifi, Atwell & Abuhakema,‏ 
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التحشية الموجهة نحو المشكلات problem-oriented annotation‏ 
وصفها هان )1984 (Haan,‏ بأنها واقعة بحثية يستخدم فيها المستفيدون المدونات 
اللغوية» الَحْشْوّة أو غير الَحْشْوّة كي يضيفوا التحشية الخاصة بهم على النحو الذي 
يجيب عن أسئلة الدراسة. ولذا تُسمى أيضًا التحشية محددة البحث „research specific‏ 
qoM.‏ مسد الي م ا ا 
.١‏ أا سهلة وموفرةٌ للوقت؛ فليس من الضروري أن تتم تحشية كل كلمةٍ أو 
جملق» بل يتم فقط تحشية ما له علاقة بأهداف البحث والدراسة. ولذلك يعتبر 
البعض التحشية العائدية ضمن هذا النوع. 
۲. أنها تتيح للمستفيدين حرية اختيار إطارات التحشية التي تتناسب وأهداف 
دراساتهم؛ أي آنا لا تلزمهم بإطار معينٍ للتطبيق. 
التحشية المتضمنة embedded‏ والتحشية القائمة stand alone llo‏ 
تتم معظم أنواع تحشية المدونات اللغوية السابقة وهي مختلطةٌ بالوثائق الأصلية 
X dai‏ اللكوية )4,4 Konar‏ غير إن معايير ترميز المدونات اللغوية توصى Él‏ 
باستخدام تحشيةٍ منفصلةٍ في شكل إطاراتٍ لترميز النصوصء التي من أشهرها کا أسلفنا 
الذكر RAI‏ الترهيز BAAI‏ القياسية SGML‏ ولغ الترمز القابلة XML auda‏ حي 
يتم ربط لغات البرمجة هذه بالوثائق الأصلية وغيرها من النصوص SARI‏ في شكل 
نصوصِ فائقة hypertexts‏ (تحشية قائمة بذاتها) )1997 (Thompson & McKelvie,‏ 
وتعالج التحشية القائمة بذاتها أحد عيوب التحشية بوجو عام» وهي التشويش على 
النصوص المسترجعة؛ إذ إنها بذلك تتيح إمكانية عرض نصوص الوثائق الأصلية في معزلٍ 
عن أي تشويش يكتنفها بسبب التحشية. ومن المزايا الأخرى للتحشية القائمة بذاتها: 
d up E‏ بع d‏ عع git Il‏ ا معلها ces‏ يها عو أى A3 gU 3s‏ 
Y‏ تتم بسهولة بصرف النظر عن شكل الوثائق الأصلية» كالوثائق التي go‏ 
read-only hä leel‏ 
Y‏ تتجنب إنشاء وثائق غير Che iae‏ 
5. تتيح قدرًا من التداخل المتعدد بين التفريعات الحرمية لتمثيل النصوص. 
. تقبل أكثر من نوع واحدٍ من التحشية في آنِ واح. 


o 
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A‏ تيح تعديل أوإضافة مستوياتٍ أخرى من التحشية دون إحداث أي مشكلةٍ للتحشيات 
الموجودة بالفعل أو لأدوات وبرمجيات البحث )2013 Gries & Berez,‏ 


عمليات معالجة البيانات على مستوى الإخراج 

تتمثل في العمليات الفنية التي ea‏ المخرجات للمستفيدين من خلال واجهات 
الاستخدام. وهذه العمليات الفنية تعتمد بالأساس على برمجياتٍ يتم تشغيلها على 
متون المدونات اللغوية. ولذا تتجسد الصعوبة هنا في تطوير هذه البرمجيات فقط. 
وبمجرد إيعاز هذه البرمجيات op‏ عملها لا يأخذ بضع ثوانٍ في أغلب الأحيان. 


تكشيف الكلمات 

قبل الحديث عن تكشيف الكلمات يتعين Y l‏ توضيح المقصود بالكلمات Uf SG d‏ 
فالكلمات جمع «كلمة». وتعني من الناحية اللغوية لفظة واحدةً أو مجموعة BUÍ‏ دالة 
على معني (عمر» OA‏ في معجم اللغة العربية المعاصرة» ج CE‏ ص (0E‏ وتعني من 
الناحية الآلية وحدة المعالحة الرئيسة ضمن X& sas‏ من النصوص Encyclopedia of)‏ 
(Information Science and Technology, Third Edition, p. 1824‏ والتعريف 
الأخير مرتبطً بشكلٍ مباشر ب «الكلمة» في نظر المدونات اللغوية التي تتعامل معها على 
اسار أنها tokens cus BA‏ أي سلسلةٌ من الحروف أو التمثيلات التي يسبقها 
فراع —T—‏ فراغ. 

ويطلق على تكشيف الكلمات أيضًا: التكشيف الاشتقاقيء أو التكشيف بالاقتطاف. 
ecce degens ies]‏ كال كارا ده سرمي 
كونبا مداغل كشنية «(تكديق حر أو تكشيف اللخة الطببعية)» وقلا يارس VU‏ 
لأشكال المداخل أو التحكم فيها. وبوجه عام ob‏ الكلمات قد تُشتق أو تقتطف من 
النصوص الكاملة للمدونات اللغوية» أو من العناوين. وهذا يعني أن ثمة نمطين 
أو نوعين من تكشيف المدونات اللغوية» هما: تكشيف «concordancing yo pall‏ 
وتكشيف الكلات المفتاحية في السياق KeyWord In Context (KWIC)‏ (عبد 
اهادي وزايد. ۰۲۰۰۰ ص 04( 
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تكشيف النصوص 

أي عمل كشافٍ هجائي أو معجم sues‏ أو كشاف ألفاظ (concordance)‏ 
للكلمات الواردة في الوثائق في سيا محددٍء دون تمييز بين الكلمات؛ فكل كلمةٍ يشتمل 
عليها النص تعتبر مدخلا كشفيًا (عبد AAY «gall‏ ص ص CUM‏ ويعد 
هذا النمط من أقدم أنماط التكشيف. إن لم يكن أقدمها على الإطلاق. وتعني كلمة 
الانسجام أو الاتفاق أو التلازم» غير أنها اكتسبت rna‏ اصطلاحيًا 
يدل على نوعيةٍ متميزةٍ من التكشيف (قاسم» 7٠٠١‏ ص ص (7M‏ وتم تكشيف 
النصوص بمتن الإنتاج الفكري؛ حيث يتم تكشيف النصوص في استرجاع كل كلمة 
ترد في نص معين» أو في مجموعة الأعمال الكاملة لأديب أو شاعر أو مؤلفٍ معينٍء أو 
à‏ قفص عن أو في مجموعة reb asado‏ کا رضي ala]‏ وا «ol‏ 
السا (eli‏ كما وردت في سياقاتها المختلفة (عبد الحادي» AAAY‏ ص (VY‏ 
وقد يكون هذا السياق فقرة أو ila‏ أو عبارةً أو سطرًا أو exa‏ حيث تقع الكلمة 
(عبدالحادي و زايد» ۰۲۰۰۰ ص ص (YA-YV‏ 

وقد يجعل تكشيف النصوص المخرجات أضخم من النصوص الأصلية؛ لأن 
الكلمات يتم ترتيبها Gls‏ في مداخل أو أسطر توازي عدد الكلمات الرئيسة الواردة في 
النصوصء وليس بحسب عدد جمل السياق» التي تقع فيها الكلمات. فمثلا إذا كانت لدينا 
جملةٌ مسترجعةٌ مكونةٌ من عشر كلماتٍء Op‏ إخضاعها للتكشيف بالمدونة اللغوية Ur É‏ 
في عشرة أمثال حجم النص الأصلي» وخصوصًا إذا مثلت كل كلمةٍ مبذه الجملة Geral‏ 
خاصًا. فعلى سبيل المثال قد ينصب eleal‏ المتخصصين في علم المعلوماتء أو القانون» أو 
التعليم... على الكلمات الرئيسة دون الكلمات المستثناة stop words‏ التي يحصرونها fole‏ 
في قوائم مستقلة» إلا أن الكلمات المستثناة هذه قد تجتذب اهتمام المتخصصين في علم اللغة» 
أو الترجمة» أو صناعة المعاجم... ولذا نجد أن تكشيف نصوص المدونات اللغوية يشتمل 
Gl»‏ على جميع كلمات النص دون استثناء (عبدالحادي و زايد ۰۲۰۰۰ ص ص ۳۹-۳۷). 

ونظرًا لضخامة مخرجات عملية تكشيف النصوص» OB‏ برامج معالجة المدونات 
اللغوية لا تقدمها دفعة واحدة؛ بل lel‏ توفرها وفق كل كلمةٍ على حدةٍ. 

cs‏ الآن بعض بر مجيات تكشيف النصوص «Ule concordancers‏ مثل إحدى 
النسخ القديمة لبر نامج أدو ات وورد سميث WordSmith Tools‏ الذي يقوم عليه مايك 
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سكوت Mike Scott‏ الباحث بجامعة ليفر بول University of Liverpool‏ وبالتعاون 
مع جامعة أكسفورد (Scott, 2016) Oxford University‏ وبرنامج «أدوات id bas‏ 
المدونات اللغوية العربية» الذي يقوم عليه عبد المحسن الثبيتي وزملاؤه بمدينة الملك 
عبد العزيز للعلو م والتقنية )2016 .(Almujaiwel & Al-Thubaity,‏ 


تكشيف الكلمات المفتاحية في السياق 
الكلمات المفتاحية هي عناص لكوي تحمل أبرز المعاني التي تتضمنها أي وثيقة. 
والكلمات المفتاحية أو الدالة وفقا هذا المفهوم عبارةٌ عن كلماتٍ تشير إلى موضوع من 
ا موضوعات التي تعالجها الوثيقة» وتستخدم نقاطً إتاحةء وبالتالي تستخدم مداخل 
تعكس المحتوى الموضوعي للوثائق. 
وقد ابتكر هذا النوع من التكشيف هانز بيتر لون. ويسمى أحيانًا تكشيف العناوين؛ 
]3 يقوم هذا النوع من التكشيف بالترتيب الهجائي للكلات المفتاحية الواردة بالعناوين 
(عبد الهادي» (MAY‏ ص 77) التي تم جمعها بالمدونات اللغوية» مع بيان سياقاتها التي 
وردت بها؛ وذلك بتسجيل بقية العنوان. وقد يكتب بجوار كل كلمةٍ وسياقها رقم أو 
رم يقود المستفيد إلى المصدر الذي وردت به الكلمة. وبذلك نجد أن سطر تكشيف 
الكلمات المفتاحية في السياق يتكون من: 
.١‏ الكلمة المفتاحية: وهى الرأس أو المدخل في تسلسلها الحجائى. 
العا den phy‏ الكلياف pm all Ras lal‏ وليك هذا فى 
التتحقق من البيئة اللغوية التى وردت ا الكلياث. 
۳. الكود: وهو الإحالة أو الإشارة المرجعية التى تربط المداخل بالبيانات 
الببليوجرافية الكاملة ducat‏ سنت ارقي امك وجودها (عبدالهادي. 
«MY‏ ص (Vo‏ 
ونظرًا إلى أن الاكتفاء بتكشيف العناوين لا يكفل تعبيرًا دقيقا لمحتوى المدونات 
اللغوية» فقد بات من الضروري المزج بينه وبين تكشيف النصوص. وقد أسهمت 
التطورات التقنية الحديثة إلى تحقيق تقارب بين نمطي التكشيف هذين» حتى أصبحت 
bea col pl‏ المدوثات UE‏ ارج بن هتيج ال قاين فى الأول عن Elsa‏ 
يتم في الثاني» وما يحدث في الثاني يحدث أيضًا في الأول (عبد الهادي. MAY‏ ص CYA‏ 


—AY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n———————————————‏ 


ولذا نجد أن بعض الدراسات التى تتناول المدونات اللغوية أضحت تُطلق على هذه 
المعالجة الفنية للكلمات تكشيف النصوص فقطء أو تكشيف الكلمات المفتاحية في 
السياق فقط. وبعض الدراسات الأخرى رادفت بين النمطين. 


المشكلات الفنية فى تكشيف المدونات اللغوية 
de‏ ارق عا كير بد E olla‏ ن اا Dành ghi dai Ob]‏ 
تكتنفهماء وهما: 
.١‏ تشتت مداخل الموضوع الواحد بسبب افتقاد الكلمات للتقنين أو التوحيد. 
حيث تتشتت الوثائق المتصلة بموضوع معينٍ تحت الأشكال المختلفة للتعبير 
عن هذا الموضوع. 1 
۲. بتر بعض الكلءات بسبب تحديد طول السطر بعددٍ معينٍ من الأحرف؛ الأمر 
الذي يؤدي عادة إلى ضياع جزءٍ من السياق. 
المشكلات اللغوية فى تكشيف المدونات اللغوية 
et‏ إلى المشكلات الفنية السابقة بعض المشكلات الأخرى المرتبطة باللغة 
العربية» منها: 
.١‏ الترادف: الذي يؤدي إلى تشتت الموضوعات تحت الكلمات المترادفة الدالة على 
مفهوم أو معنىّ Jl‏ (عبد الحادي & زاید» 7٠٠١‏ ص ص (Y 47V‏ 
؟. الجتاس: الذي يتطلب عرض السياق كاملا كى يمكن التحقق من المعتى 
l AOTT‏ 
۳. اختلاف الإملاء: الذي يؤدي أيضًا إلى تشتت الموضوعات تحت الرسم المختلف 
للكلمات» وبصفةٍ خاصة الكلمات الأجنبية والعرّبَة» مثل: جوجل/ غوغل/ 
قوقل» جرام/ غرام (عبد ال هادي & زاید» ۰۲۰۰۰ ص ص ۳۹-۳۷ (A0-AE‏ 
قوائم تردد الكلمات 
من الوظائف الأخرى التي تقوم عليها برمجيات المدونات اللغوية ترتيبٌ الكلمات 
وفقًا لتكرار ترددها بالنتصوص. Jat‏ مدى تكرار تردد الكلمات في المدونات اللغوية 
مؤشرًا على أهمية هذه الكلمات لأغراض التعبير عن المحتوى. حيث يتم إحصاء عدد 
مرات تردد الكلمات في المدونة اللغوية وترتب تنازليًا. وتعد الكلمات التي ترد على 
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القمة (أكثر الكلمات 5 152( هي الكلمات المحورية”" في ie gat‏ ما من النصوصء أو 
في لغةٍ ماء أو في تخصص ما... ومن ثم يمكن التحقق من أشكال هذه الكلمات» بغرض 
اعتماد إحداهاء أو ربا إغفاها. 

US ما يتبقى من‎ OB إذا ما تم استبعاد الكلمات الوظيفية من قمة الترتيب»‎ Ul 
يمكن اختياره ليكون مصطلحاتٍ كشفية. وكذلك يمكن إحصاء تكرار المقاطع»‎ 
والجمل» والعبارات» والفقرات.‎ 

وقد يتم ترتيب الكلمات ترتيبًا ألفبائياه وقد يتم وفقا لترتيب ظهور الكلمات داخل 
النص كونها Wa‏ سريعًا لتوزيعات الكلمات داخل النصوص )342 Lijffijt, 2011, p.‏ 
توليد الكلمات المفتاحية 

تعتمد هذه العملية الفنية بشكل oae‏ على سابقتها؛ وذلك عن طريق المقارنة 
بين قوائم تردد الكلمات. فالكلمة يتم احتساما مفتاحية إذا كان تكرار ترددها Ole‏ 
(أو ربا منخفضًا) على نحو غير tons‏ وذلك في إطار مقارنتها بمدونة لغوية مرجعية 
I .reference corpus‏ 

حيث TM‏ عادة قائمتان de)‏ الأقل) لتكرار تردد الكلات من أجل توليد 
الكلمات المفتاحية لمجموعة من النصوص؛ إحداهما تمثل النصوص المستهدفة التي 
يتم دراستهاء والأخرى Je‏ النصوص المرجعية» والتي تكون أكبر من الأولى» وهي 
في الوقت نفسه تمثل خلفية للبيانات التي يتم احتساب الكلمات المفتاحية من خلاها 
.(Culpeper, 2009, p. 33)‏ 

حيث تتم مضاهاة الكلمات الواردة في القائمتين» eai s‏ بعض الطرق الإحصائية» 
والتى منها: اختبار دوال الاحتالات cLikelihood Ration Functions‏ أو اختبار 
m‏ كاي ös (Scott, 2009) Chi-Square‏ النتيجة قائمة بالكلمات المفتاحية» 
سواءٌ ذات التردد العالي غير المعتاد SIIS)‏ مفتاحية ute]‏ أو تلك ذات التردد 
المخفضى غير الاد (كلات مقداسية سلبية): 

إلا أنه ينبغى مراعاة عاملين رئيسين قبل اعتماد مدونة النصوص المرجعية 
لعملية المقارنة؛ وهما: 


-١‏ ليس شرطًا أن تكون كلماتٍ els‏ لأن أكثر الكلمات ترددًا تكون ste‏ هى الكلمات الوظيفية. 
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.١‏ حجم هذه المدونة: فعلى الرغم من أن البعض قد قلل من أهمية الدور الذي 
يؤديه حجم المدونة المرجعية لتردد الكلمات )2009 (McEnery,‏ إلا أن 
البعض الآخر أكد على ضرورة أن يبلغ حجم المدونة المرجعية لتكرار تردد 
الكلمات خمسة أضعاف المدونة المدروسة» Yy‏ فإن النتائج ستكون غير دقيقةٍ 
lè .(Berber-Sardinha, 2000, pp. 7-8)‏ أوصت بعض الأدبيات الخاصة 
بموضوع استخراج الكلمات المفتاحية بأن يكون حجم المدونة المرجعية أكبر 
من حجم المدونة المدروسة» أو على أقل تقدير أن تكون المدونتان متساويتين في 
الحجم Y Ve D‏ ص .)٠١5‏ 

Y‏ نوع هذه المدونة: ليس هناك اختلافٌ ذو دلالةٍ إحصائية بين النصوص المكتوبة 
والنصوص المنطوقة حال اعتتادها أنواعًا للمدونات المرجعية لتكرار تردد 
الكلمات. إلا أن تصنيف هذه المدونات في cota‏ (أخبارء أو ثقافة» أو أدب... 
إلخ) هو العامل المؤثر Ule]‏ في استخراج وتوليد الكلمات المفتاحية. فإذا ما 
أريد توليد كلماتٍ مفتاحية لقائمة تردد كلماتٍ لنصوص أكاديمية» فإنه فصل 
أن تكون المدونة المرجعية المستخدّمة لنصوص إخبارية مثلاء أو ربا نصوص 
EY TT‏ 

يذكر أنه يمكن الاستفادة من أسلوب المقارنة هذاء والطرق الإحصائية المستخدمة 
به» في توليد قائمة بالكلمات المفتاحية المستخدمة في فترة زمنية معينة؛ وذلك من خلال 
المقارنة بين قائمة تردد كلماتٍ لإحدى الفترات» في مقابل مدونة مرجعية لتردد كلاتِ 
من فترة زمنية أخرى. وقد تُستخدم أيضًا هذه الطريقة للحصول على قائمة بالكلمات 
المفتاحية ع T‏ لغوي Variety‏ معین؛ كما هو J‏ عند المقارنة بين الكلمات 
الأكثر ترددًا في الفصحى مقابل العامية . أو في فرع oe‏ من فروع المعرفة البشرية مقابل 
فرع آخر... إلخ )251-54 Goh, 2011, pp.‏ 
تحليل التجمعات العنقودية Cluster analysis‏ 

إلى جانب أنه يمكن للبرمجيات المعالجة للمدونات اللغوية أن تقوم بفرز وترتيب 
الكلمات الأكثر ترددّاء فإنه يمكنها أيضًا أن تة تقوم بالتحليل والترتيب Ub s‏ لمجموعات 
الكليات combinations of words‏ أو المقاطع «chunks‏ وذلك Ob‏ يتم تحديد عدد 
الكلمات المسترجّعة: combinations‏ 2-7010 أو -3 أو -4... فإذاتم البحث في المدونة 
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اللغوية عن المقاطع المكوّنة من ثلاث كلماتء فإنه سيتم النظر أولا إلى الكلمة ١‏ و ۲ و Y‏ 
التي يبدأ مها النص» ثم يتم النظر إلى الكلمة Y‏ و "و E‏ ثم إلى الكلمة "و E‏ و co‏ وهكذا. 
وفي النهاية تُعَرَض صفحة نتائج عبارةٌ عن قائمةٍ من تجمعاتٍ عنقودية/ مقاطع لثلاث 
كلمات three-word clusters/chunks‏ تتكرر عددًا من المرات المقطعية cut-off‏ 
points‏ وليكن مثلا: أكثر من مرتين» أو أكثر من ثلاث مراتء أو غير ذلكء وفقًا لرغبة 
RAEN‏ مع الوضع في الحسبان أن آلية التحليل تحتسب أي عدو من الحروف 
(التمثيلات) بعدها (أو قبلها) مساق Gel de‏ کله dsl‏ بمعنى أنه إذا كان هناك اسم 
أو فعلٌ يرتبط به ضميرٌ» فإنه سيتم التعامل معه كونها كلمة واحدة» وليس كلمتين. 

ومن هنا نجد أن العبارات المسترجّعة من تحليل التجمعات العنقودية تفتقد غالبًا إلى 
الأكتهال التحزي؛ مكل: وبطريقة أخرى:.. ويمكن أن... لابد أن... مجموعة من... إلا أا قد 
تؤدي و Aib‏ تداو .pragmatics (O'Keeffe; McCarthy & Carter, 2007, pp 70-71) AJ‏ 
فما المقطع «بإذن الله...» قد يعبر في سياقاتٍ معينة عن مواقف إجابية (التمني)» إلا 
أنه في سياقاتٍ أخرى قد يعبر عن مواقف سلبيةٍ (النفى). 

de;‏ الرغم من ell‏ فإن تحليل. الجمسات' العتقودية يسهم فى diei‏ من 
الوظائف أو المقيدات النحوية syntactic restrictions‏ للكلمة أو للكلمات. إذ يمكن 
التأكد من حروف الجر التى تدخل iale‏ على بعض الكلمات s‏ 3 أو تضيف إلى معناهاء 
والمكان النحوي المتوقع ها G)‏ بداية الجملة» أم في منتصفهاء أم في أخرها) O'Keeffe;)‏ 
(McCarthy & Carter, 2007, pp. 14-16‏ 

ويسهم تحليل التجمعات العنقودية أيضًا في التحقق من المقيدات الدلالية للكلمات؛ 
حيث يمكن تحديد ما إذا كانت الكلمة تُستخدم مع العاقل فقطء أم مع غير العاقل 
قط آم مم deeds‏ 

كما أن العبارات المسترّجعة قد تؤدي وظيفة تعرف ب «العّروض الدلالي semantic‏ 
037 وقد استخدم هذا co‏ لوق LOUN‏ (1993)؛ ويعني أن ترد الكلمة مع 
كلمة أو cus‏ أخرى يكسبها Jy.‏ معدا في CUL.‏ محددة بالإيجاب أو بالسلب 
.(O'Keeffe; McCarthy & Carter, 2007, pp. 14-16)‏ 

وفضلا عن ذلكء فإن تحليل التجمعات العنقودية ينصب ale‏ على الكشف عن 
الكلمات التي تتوارد لتؤلف عباراتٍ بلاغية مكوّنة ale‏ من كلمتين» وأحيانًا من 
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ثلاث أو أكثر تتصاحب مع بعضها عادةً وتتلازم في اللغة» وتسمى Jem‏ «متلازمات 
TA‏ أو (متضاحباتٌ Od us]‏ 5.15 مثل: رأب الصدع (كلمتان)ء كالنار في 
الهشيم (أربع كلمات)» فتح الباب على مصراعيه (خمس كلمات)... وهي ليست عباراتٍ 
مفتوحة مطاطة بل هناك عرف Bla‏ في استعاطا جعل معظمها عبارات شبه ثابتة 
يستخدمها المتخصصون وغيرهم بديا. 

وفي Jie‏ المكتبات والمعلومات» على سبيل المثال» يمكن لتحليل التجمعات 
العنقودية أن يسهم في الكشف عن متلازماتٍ لغوية مثل: أوعية المعلومات» وتنمية 
المقتنيات» ونظم استرجاع المعلومات... وغيرها؛ فحين| ترد كلمة «أوعية» في مدونة 
لغوية لمجال المكتبات والمعلومات» فإننا نعلم Le‏ متصاحبة مع كلمة «المعلومات»» Ul‏ 
إذا وردت في مدونة لغوية للعلوم الطبية» فإنها بالضرورة ستتصاحب مع كلمة «دموية». 

وبذلك OB‏ تحليل التجمعات العنقودية للمدونات اللغوية يفيد كثيرًا في دراسة 
وتحليل الكلمات وصك المصطلحات (صناعة المعاجم والمكانز)» فضلا عن أنه 
يكشف عن التعبيرات الاصطلاحية «idiomatic expressions‏ وأسلوب الاتصال» 
أو الأسلوبية cstylisties‏ والأسلوب العباري للكلمات phraseology‏ الذي يفيد في 
التحقق من الخصائص اللغوية المميزة لتخصص ماء أو لولف ما (غزالة» «ev‏ ص 
ص .)1١-5‏ وهو بذلك أسهم بشكل أو بآخر في أن جعل الكثير من المتخصصين 
ينظرون إلى كون الكلمات أكبر من مجرد «قائمة غير مرتبة من وحداتٍ معجمية مفردة) 
كما ذهب تشومسكي )84 (Chomsky, 1965, p.‏ 


-١‏ هي كلماتٌ تتصاحب أو تتلازم أو la o AE‏ بكلماتٍ آخری» سواءٌ لسببء أو دون سبب ظاهر أو منطقي. 
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الخلاصة 

تناول هذا الفصل من الكتاب المدونات اللغوية من حيث كيفية معالحة البيانات 
اعتمادًا عليها. وقد شملت عمليات المعالجة تلك المعالجات التي تتم على مستوى 
الإدخال: ترميز المدونات اللغوية» وتحشية oU Sal‏ اللغوية. وتعد الأخيرة واحدة من 
أبرز العمليات الفنية التي تتم على المدونات اللغوية. حيث تمت مناقشة هذه العملية 
الفنية في ضوء تعريفهاء وأهميتهاء والنقد الموجه Ub‏ وطرائقهاء وأنواعها المختلفة التي 
تشمل: وسم أقسام الكلم» وتجريد الكلماتء والتحليل الإعرابي» والتحشية AUN UI‏ 
وتحشية المصاحبة المرجعية» والتحشية البراجماتية أو التداولية» والتحشية الأسلوبية» 
ووسم الأخطاء» والتحشية الموجهة نحو المشكلات» والتحشية المتضمّنة والتحشية 
القائمة بذاتها. 

كا شملت عمليات المعالجة التي تم التركيز عليها في هذا الفصل تلك التي تتم 
على مستوى الإخراج: تكشيف الكلمات» وتكشيف النصوصء وتكشيف الكلمات 
المفتاحية في السياق» والمشكلات الفنية في تكشيف المدونات اللغوية» والمشكلات 
اللغوية في تكشيف المدونات اللغوية» وقوائم تردد الكلمات» وتوليد الكلمات المفتاحية» 
وتحليل التجمعات العنقودية. 
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eo الفصل‎ 


المدونات اللغوية: نماذج وبرمجياتٌ 


التمهيد 
المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنية 
المدونة اللغوية التاريخية للجامعة الأردنية 
المدونة اللغوية العربية الدولية لمكتبة الإسكندرية 
مدونة عربي كورتص 
المدونة اللغوية لمتعلمى اللغة العربية 
المدونة العربية القرانية 
مدونة قرآني 
استقصاء المدونات اللغوية العربية 
سكتش إنجين 
المدونة اللغوية للإنجليزية الأمريكية المعاصرة 
المدونة اللغوية للأخبار على الشبكة العنكبوتية 
برمجيات معالجة وتحليل المدونات à AUI‏ العربية 
برنامج أدوات وورد سميث 
برنامج أدوات معالجحة المدونات اللغوية العربية 
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التمهيد 


تناولنا فيا سبق من هذا الكتاب المدونات اللغوية؛ تلك الأداة التي تؤدي دورًا بالغ 
الأهمية لكثير من المجالات العلمية. إذ تم تناول هذه الأداة في ضوء ماهيتها وأهميتهاء 
ومميزاتهاء ومواصفاتهاء وما يمكن أن تقدمه من خدماتٍ بحثية. كا تم تناول العمليات 
الفنية التي تتم على المدونات اللغوية وأساليب معالجة نصوصها. 

وبقي لنا هنا أن نؤكد أن المدونات اللغوية تتاح fale‏ من خلال واجهة تعامل على 
الشبكة العنكبوتية تمكن الباحثين والمستفيدين من إجراء عددٍ من التحليلات الكمية 
co (SU‏ والمصطلحات الكشفية. وتغطى هذه المدونات اللغوية عادة أيضًا موضوعًا 
aris ea A dide‏ شامع معاون لوقه أ 42 dS‏ 25555 

وفيها يلي ie pat‏ من المدونات اللغوية القائمة على الشبكة العنكبوتية» مع تسليط 
الضوء على العربية منها التي يتضح فيها جليًا نظام تكشيف الكلمات المفتاحية في 
السياق» وعرض النتائج المسترجعة وفقا لسياقات الكلمات المفتاحية التي تعبر عن 
موضوعات متعددة في ختلف فروع المعرفة البشرية. حيث يتم تناول هذه المدونات 
اللغوية في ضوء حجمهاء والمجالات والموضوعات التي تغطيهاء وسماتها وخصائصهاء 
وإمكانات البحث التي تقدمها. 
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وقد وضع المؤلف لنفسه» عند الحديث عن هذه المدونات اللغوية» نموذجًا معياريًا 
استلهمه من البيانات المتاحة حول هذه المدونات. حيث وجد أن هذه البيانات تغطى 
io pat‏ من حقول الوصف التي إلتزم بها المؤلف» قدر الإمكان» عند وصف ecl gall‏ 
على النحو التالي: 

.١‏ الاسم. 
؟. المحدد الموحد لكان المصدر URL‏ 
LY‏ التعريف والهدف. 
كأ eL cols‏ ونيا easy Ra y ce uel zu‏ 
0. الحجم. 
5. اللغة والأنواع اللغوية „varieties‏ 
۷. العينة. 
۸. نوع النصوص؛ مكتوبة؛ أم منطوقة. 
.٩‏ الأنواع الآدبية genres‏ والموضوعات. 

٠٠‏ .الفترة الزمنية المغطاة. 

١.لمصادر‏ اللغوية/ مصادر المعلومات والمصادر المكانية. 

sf. Y‏ والترميز. 

٠‏ . إمكانات التحليل. 

٤‏ .لقطة مصورة من شاشة أو شاشات عرض المدونة اللغوية. 

يعقب ذلك استعراض لبعض برمجيات معالجة المدونات اللغوية العربية» مع إبراز 
إمكاناتهاء والنظم الفرعية التي تتضمنها. 


المدونة اللغوية العربية لمدينة الملك عبد العزيز للعلوم والتقنية 

King Abdulaziz City for Science and Technology (KACST) Arabic Corpus 
corpus.kacst. وكاو بالمجان من خلال هذا الرابط:‎ Los Asi ids هى‎ 

aie‏ 8 . وتفيد هذه المدونة اللغوية في أغراض بحثية مختلفة؛ تبدأ من 

الدراسات اللغوية بمستوياتها المتنوعة» وتمتد لتشمل تطوير تطبيقات idle‏ اللغة 

(Al-Thubaity, 2015) الطبيعية‎ 
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وقد بادرت مدينة الملك عبد العزيز للعلوم والتقنية إلى إنشاء هذه المدونة في عام 
YY‏ ويتجاوز حجم المدونة المليار كلمةٍ (1875157 كلمة)؛ وبذلك فهي تعد واحدة 
و sf‏ ارات الا idle,‏ التصوض الكعرة لقص (التصحن 
التراثية» والعربية القياسية الحديثة) فقط. دون اللهجات العربية المختلفة. وذلك عبر 
ثلاثة أبعادٍ رئيسة» هي: الفترة الزمنية» والمنطقة الجغرافية» والنوع الأدبي. وتمتد الفترة 
الزمنية المغطاة من عصر ما قبل الإسلام» وحتى وقت إنشاء هذه المدونة اللغوية. 


وتم جمع نصوص المدونة من مصادر معلوماتٍ متنوعة» el‏ على ما هو متوافر على 
الشبكة العنكبوتية من GRE‏ عربي. وتشمل ٠١‏ مصادر معلوماتِ» هي: المخطوطات 
المحققة» والكتب» والصحف» والمجلات» والمناهج الؤراسية» Ga Jos‏ العامة 
والمواقع الإلكترونية» والدوريات المحكمة» والمطبوعات الرسمية» ووكالات الأنباء. 
وتم تصنيف هذه النصوص على BU ٠١‏ و 401 موضوعًا. 

وتم الحصول على مصادر المعلومات هذه من مصادر لغويةٍ مختلفة. فعلى سبيل «JUM‏ 
تم الحصول على المخطوطات القديمة من موقع المكتبة الشاملة. وتم تجميع نصوص 
الكتب من موقع المكتبة الشاملة» وموقع صيد الفوائد» وموقع اتحاد الكتاب العرب. 
ul‏ نصوص الدوريات العلمية المحكمة فد تم تجميعها من مواقعها الإلكثروية لعدد 
من الجامعات العربية» كجامعة آم القرى» وجامعة الملك فيصلء إضافة إلى موقع اتحاد 
الكتاب العرب. فيا تم تجميع نصوص الرسائل العلمية من مواقع عددٍ من الجامعات 
العربية» وموقع المكتبة الشاملة. 

وجمّعت نصوص المطبوعات الرسمية من مواقع قانونية متخصصة. مثل مواقع 
وكالات الأمم المتحدة» والمواقع الحكومية. بينا عت نصوص المناهج الدراسية 
من مواقع الجامعات» ومواقع وزارات التربية والتعليم» والمواقع التعليمية. xz s‏ 
نصوص الصحفء والمجلات» ووكالات الأنباء من موقع صحيفة الوطن السعودية» 
وموقع صحيفة روز اليوسف المصرية» ووكالة الأنباء السعودية» وغيرها. 

وتوزعت الأنواع الأدبية والموضوعات التي تشملها المدونة على ما يتناسب مع الفترة 
الزمنية التي تغطيها. فعلى سبيل المثال» نجد أن الأخبار الرياضية مناسبة للصحف». 
بوصفها المصدر اللغوي» في الفترة الزمنية الحديثة فقط» وهكذا. ويظهر الشكل رقم 


av. 


هذه الطبعة إهداء من SA‏ 
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)١(‏ الصفحة الرئيسة للمدونة اللغوية العربية لمدينة الملك عبد العزيز للعلوم والتقنية. 


الشكل رقم )١(‏ الصفحة الرئيسة للمدونة اللغوية العربية لمدينة الملك عبد العزيز للعلوم والتقنية 

وراعت هذه المدونة اللغوية حقوقٌ الملكية الفكرية» ca‏ مع المصادر الحديثة التي 
استقت منها النصوص» وخاصة الصحف. ووكالات الأنباءء والمجلات» والمواقع 
الإلكترونية. حيث وضعت المدونة قيودًا للإتاحة يتم بمقتضاها مراعاة حقوق الملكية 
الفكرية. وتمثلت هذه القيود في: عدم توزيع النصوص التي تم جمعهاء وعدم السماح 
محل هذه افوص وعلم الواح يعرضي التضوين الكاملة فاه ولكن غر ي 
السياقات التي وردت با الكلمات فقط )10 كلمة قبل وبعد الكلمات المحورية). 
وعلاوة على ذلك» فقد وفر القائمون على هذه المدونة البيانات الببليوجرافية الخاصة 
بها. وذلك كله في إطار إعفائها من أي Sgil‏ للحقوق» واتساقهاء في الوقت نفسه» مع 
القانون السعودي للملكية الفكرية. 

وتتميز المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنية بتعزيز 
نصوصها بالميتاداتا وفق مجموعة من حقول الوصف» هي: العنوان» وتاريخ النشرء 
والفترة الزمنية» واسم المؤلف ونوعه (ذكر C, zl el‏ والمنطقة» ومصدر اللغة» والنطاق» 
والموضوع. الأمر الذي يتيح للباحثين والمستفيدين من المدونة إمكانية الاسترجاع 
والتحليل وفق مقيدات بحثِ ختلفة. 
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وتوفر المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنية de‏ من 
إمكانات الاسترجاع. هي: 

.١‏ البحث: توفر هذه الأداة نوعين من البحث: 
البحث في نصوص المدونة بكلمةٍ واحدةٍ أو عدةٍ cus‏ بطريقة مشابمة 
لمحركات البحث. حيث تظهر السياقات التي وردت فيها هذه الكلمات مع 
معلوماتٍ تحوي عنوان النص» والوعاء» والمجال» والموضوع. والفترة الزمنية» 
والبلد الذي طبع فيه النص. ويمكن للمستفيد تحديد البحث في ce joe‏ أو عدة 
أجزاءٍ محددة من المدونة من خلال المحددات الموجودة في أعلى الصفحة. ما 
يمكنه تحديد أكثر من عنصر من عناصر المحدد الواحد بالضغط على زر CTRL‏ 
من لوحة المفاتيح واختيار العناصر المطلوبة. ويمكن تطبيق هذه الطريقة على 
جنيع محددات البحث في الوقت نفسه. ويجدر SIIL‏ أن هذه الخاصية متوفرة 
أيضًا في بعض الأدوات (الكشاف السياقي» والتصاحب اللفظي). 
البحث عن عناوين النصوص بواسطة كلمة أو مجموعة كلمات. وهي مشابهة 
للبحث في النصوص لكن تبحث في عناوين النصوص فقط حيث تظهر 
النصوص التي وردت في عناوينها هذه الكلات مع معلوماتٍ تحوي النص» 
والوعاء» والمجال» والموضوع» والفترة الزمنية» والبلد الذي نشر فيه النص. 
ويوضح الشكل رقم (Y)‏ صفحة البحث في المدونة اللغوية العربية لمدينة الملك 
عبد العزيز للعلوم والتقنية. 


الشكل رقم (Y)‏ صفحة البحث في المدونة اللغوية العربية لمدينة ا ملك عبد العزيز للعلوم والتقنية 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
+ لغ سيا 


LY‏ البحث المخصص: تمكن هذه الأداة المستفيد من البحث عن الكلمات بواسطة: 
الجذع؛ بحيث يظهر الجذع بصوره المختلفة بعد إضافة السوابق واللواحق 
الممكنة (مثل أل التعريف» والواوء والباء» والضهائر المتصلة) وذلك بحسب 
نوع الجذع (اسمء أو فعل) مع معلومات عن تكرار هذه الصور في المدونة. 
ويمكن من خلال النقر على الكلمة الانتقال إلى الكشاف السياقي للكلمة. 
البحث بواسطة رموز البدل ( > و ) حيث تعني CL)‏ أي عددٍ من الأحرف» 
وتعني (-) حرفا واحدًا فقط. ويمكن أن يوضع أي رمز من هذين الرمزين في أي 
مكان من سلسلة الأحرف التي يراد البحث عنها. فعند إدخال السلسلة Ce)‏ 
فيعني هذا البحتٌ عن أي كلمةٍ تحتوي على الحرف م. وتعني السلسلة Cg)‏ أي 
كلمةٍ أوما حرف الميم. وتعني السلسلة (_ م _ ) البحث عن أي كلمةٍ مكونةٍ من 
ثلاثة حروف أوسطها حرف الميم» وهكذا. ويبين الشكل رقم (Y)‏ صفحة البحث 
المخصص في المدونة اللغوية العربية لمدينة الملك عبد العزيز للعلوم والتقنية. 


9 الفدونة اللفوية العربية لمدينة الملك عبدالعزيز oglati‏ والتقنية v‏ 


TEN 
صفحة البحث المخصص في المدونة اللغوية العربية لمدينة الملك عبد العزيز‎ (Y) الشكل رقم‎ 
للعلوم والتقنية‎ 
توزيع التكرار:‎ JN 
يمكن من خلال هذه الأداة معرفة التوزيع الإحصائي لكلمةٍ واحدةٍ» أو كلمتين‎ 
متتابعتين» أو ثلاث حسب الفترات الزمنية» أو حسب أوعية المدونة؛ كا تار‎ 


AM 
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المستفيد. حيث تظهر الفترة الزمنية» أو cele JE‏ ويقابلها تكرار الكلمة»ء وتكرارها 
النسبي» وعدد النصوص التي وردت فيها. ويظهر الشكل رقم C£‏ صفحة توزيع 
التكرار في المدونة اللغوية العربية لمدينة الملك عبد العزيز للعلوم والتقنية. 


mer) 
الشكل رقم (5) صفحة توزيع التكرار في المدونة اللغوية العربية لمدينة الملك عبد العزيز‎ 
للعلوم والتقنية‎ 
الكشاف السياقى:‎ .٤ 

تستخدم هذه الأداة m‏ السياقات التي تظهر فيها الكلمة» أو أي ie gat‏ من 
الكلمات المتتابعة ضمن مدى محددٍ من الكلمات السابقة واللاحقة. ويتراوح عدد 
الكليات السابقة أو اللاحقة من صفر وحتى ٠١‏ كلمة. وتفيد هذه الأداة بشكل رئيس 
ف الكشف عن لال الكل المركزية للنساق» وطبيعة السياقات الى طهر فيها هذه 
الكل ودر بال كر a‏ يمكن dai Aca‏ هذه etl‏ حاسيه S‏ من تخاو 
الضغط على زر الحفظ الموجود في أعلى الصفحة أو أسفلها. ك| يمكنه التحكم في عدد 
النتائج التي تظهر في الصفحة. ويوضح الشكل رقم )0( صفحة الكشاف السياقي في 

المدونة اللغوية العربية لمدينة الملك عبد العزيز للعلوم والتقنية. 
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الشكل رقم )9( صفحة الكشاف السياقي في المدونة اللغوية العربية لمدينة الملك عبد العزيز 
للعلوم والتقنية 
ه. التصاحب اللفظى: 
تستخدم هذه الأداة لقياس مدى الارتباط بين الكلمة المبحوث عنهاء والكلمات 
التي تظهر معها في السياق حسب طول السياق الذي يحدده المستفيد من خلال 
الكلمات السابقة والكلمات اللاحقة. ويمكن للمستخدم اختيار طريقة 
إحصائية أو أكثر من oU‏ طرق ممكنةٍ في النظام لقياس قوة الترابط. ويظهر 
النظام المعلومات التالية للمستفيد: الكلمة وتكرارها في المدونة» وتكرارها في 
السياق» وقيمة معامل الارتباط الإحصائي. ويمكن للمستفيد تصفية النتائج 
والاقتصار على كلماتٍ معينة بحسب تكرار هذه الكلمات في كامل المدونة و/ 
أو السياق. كا يمكن أيضًا تصفية النتائج والاقتصار على الكلمات التي تحقق 
قيمة معينة على الأقل حسب نتائج المقاييس الإحصائية. ويمكنه كذلك ترتيب 
النتائج تصاعديًا أو تنازليًا بالنقر على رأس العمود الذي يريد ترتيب النتائج 
slo‏ عليه. کا يمكنه حفظ هذه النتائج في حاسبه JYI‏ من خلال الضغط على 


xA 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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زر الحفظ الموجود في أعلى الصفحة أو أسفلها. ويبين الشكل رقم CU‏ صفحة 
التصاحب اللفظي في المدونة اللغوية العربية لمدينة الملك عبد العزيز للعلوم 
والتقنية. 


- 


الشكل رقم (C)‏ صفحة التصاحب اللفظي في المدونة اللغوية العربية لمدينة الملك عبد العزيز 
للعلوم والتقنية 


المدونة اللغوية التاريخية للجامعة الأردنية Historical Arabic Corpus‏ 

هذه المدونة peu‏ الإنترنت من خلال هذا الرابط: nlp.ju.edu.jo‏ . وتبدف 
هذه المدونة إلى خدمة علماء اللغة ومتعلمي العربية بحيث يمكنهم استكشاف وفهم 
nM‏ اللخري DE zal a nl col‏ عبن الور ig jl ella‏ 
المختلفة للأدب العربي )2016 .(Hammo, Yagi, Ismail & AbuShariah,‏ 25 يبلغ 
حجم هذه المدونة £0 مليون هيكل كلمةٍ من ختلف العصور التاريخية للأدب العربي. 
وذلك من خلال ما تحويه المدونة من نصوصي عربية قديمة تمتد لأكثر من ستة عشر قرا 
من الاستعبال اللغوي؛ منذ العصر الجاهلي» وعصر صدر الإسلام» والعصر العباسي 


40 


هذه الطبعة إهداء من المركز 
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الآول» والعصر العباسي الثاني» وعصور الولايات والمالك المتتالية» وحتى العصر 
اديت وکا ا ا عنس o‏ الور suas liM‏ لفل escas‏ 
وتشمل all‏ راا d. dà yc gcn gc tll poll je Mia ae Cal‏ 
ودين» وعلوم» ومعتقدات» ومعاجم لغوية. 

ويقر القائمون على هذه المدونة بأنها تفتقد كثيرًا إلى التمثيل الجيد للبيانات» والتوازن 
بين المتون؛ بسبب الصعوبة الكبيرة في الحصول على النصوص العربية المرقمنة. 

كما تمت معالحة كل كلمة من كلمات المدونة (فيها عدا الكلمات المستثناة) بحيث يتم 
تحديد الكلمة نفسهاء وموقعها داخل النص» والجذرء والوزن» وقسم الكلم» والجذع. 

وتم ترميز بيانات المدونة اللغوية التاريخية للجامعة الأردنية باستخدام لغة الترميز 
القابلة للتمديد XML‏ متضمنة مجموعة من حقول الميتاداتاء هى: عنوان الوثيقة» 
والمؤلف» وتاريخ النشرء والعصر أو الفترة الزمنية» والفئة» والنوع الأدي» SIE‏ 
تاريخ الإنشاءء» وتاريخ آخر تعديل. 

وتتيح هذه المدونة اللغوية إمكانات استرجاع البيانات وفق قائمة تردد الكلمات» 
وتركيب الجمل والعبارات» وعرض المتلازمات اللغوية لكل فترة زمنية أو نوع أدبي. 
وو ال رة الف اة رة اللغريةالنارضة الجامعة رة 
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الشكل رقم (V)‏ الصفحة الرئيسة للمدونة اللغوية التاريخية للجامعة الأردنية 
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هذه الطبعة إهداء من المركز 
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المدونة اللغوية العربية الدولية لمكتبة الإسكندرية 
International Corpus of Arabic (ICA)‏ 

تتاح هذه المدونة اللغوية على الشبكة العنكبوتية تحت اسم «المدونة اللغوية العربية 
العالمية» من خلال هذا الرابط: WWw.bibalex.org /ica /ar /about.aspx‏ . وهى 
تمثل أحد المشروعات الثقافية التابعة لمكتبة الإسكندرية الحادفة لبناء مدونةٍ لغوية 
ia‏ العام 8 ORAS JS Ola V * cud‏ كلل رركا Na y gnis‏ ول 
لقطاع إقليمي كبر من الدول الناطقة باللغة العربية المعاصرة» وعاكسة بشكل حقيقي فة 
وواقعي D‏ استخدام اللغة العربية المعاصرة في أنحاء الوطن العربي. 

روعي elo à‏ هذه المدونة اللغوية التمثيل A‏ للنصوص à‏ العربية المعاصرة» 
والتنوع cl à‏ النصوص ومحتواهاء والتوازن بين كل i‏ من النصوص» وحجم 
الكلمات المجَمّعة في كل فئةٍ من فئات التجميع. وشملت المدونة اللغوية عددًا من المصادر 
المصدر أو الفئة» والتوازن بين كل مصدر وكل i‏ وحجم الكلمات في كل مصدر وفئة. 

ويعتمد تصميم هذه المدونة اللغوية على البدء بحصر المصادر المختلفة» وداخل كل 
مصدر تم إدراج الفتات المميزة له. ويتم حفظ النصوص داخل هذه المدونة اللغوية 
بطريقة هرمية من خلال فهرسة النصوص وفقا لثلاثة من حقول الوصف» وهي: 
المصدرء والفئة» وتاريخ النشر. 

ومن الأمور التي تم وضعها في الحسبان عند تجميع هذه المدونة اللغوية عدد الفئات 
المتضمّنة داخل المدونة اللغوية» وعددٌ النصوص داخل كل فة من هذه الفئات» بالإضافة 
إلى متوسط عدد الكلمات داخل كل نص تبعًا لطبيعة كل مصدرٍ من مصادر التجميع. 

وتوجد أربعة مصادر رئيسة تقوم عليها هذه المدونة اللغوية» هى: الصحافة (59/)» 
والمقالات الإلكترونية (LY)‏ والكتب (CL EY)‏ والدراسات الأكاديمية C/A)‏ وينقسم 
المصدر الخاص بالصحافة dl‏ ثلاثة مصادر فرعية» هى: الحرائده والمجلاات» والصحافة 
الإلكترونية. ويوجد إحدى عشرة فئةٌ على مستوى المدونة اللغوية» هي: العلوم الاستراتيجية» 
والعلوم الاجتماعيةء والرياضة» والدين» والأدبء والعلوم الإنسانية» والعلوم الطبيعية» 
والعلوم التطبيقية» والفنون» والثقافة» والسير الذاتية» والنصوص e gall‏ 


-١‏ سلسلة من الحروفء أو التمثيلات» أو deeds‏ يسبقها فراع ويتبعها فراغ. 


ajata 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
| لغ ييا 


كما يوجد أربعٌ وعشرون فئة فرعيةء هي: السياسة. oa NE sco gll y‏ والاجتاع» 
والدين الإسلامى» والدين المسيحى» والأديان أخرىء والدين المقارن» والقصص» 
والشعر» sla‏ والدراسات اللخورة والأدبية» والطب» واهندسة» والزراعة» 
والتكنولوجياء وعلم الأحياء» وعلم الفيزياء» وعلم الفضاء وعلم الجيولوجيا والبيئة» 
وعلم الكيمياء» وعلم النفس» وعلم الفلسفةء والتاريخ. 

ويوجد ke b col e‏ من فئة القصص الفرعية» هي: الروايات» والقصص 
القصيرة» وقصص الأطفال» والمسرحيات. 

هذاء ويتم تحليل المدونة اللغوية بطريقة JE‏ مبنية على بعض الطرق الإحصائية 
وبعض القواعد اللغوية بالاعتاد على أحد المحللات الصرفية الشهيرة؛ وهى جرد 
بکوالتر Buckwalter stemmer‏ حيث يتيح التحليل عددًا من إمكانات TAE‏ 
كالسوابق واللواحق» وأقسام الكلمات» وساقهاء وجذعهاء وجذرهاء ووزنها «d pal‏ 
بالإضافة إلى نوع الكلمة من حيث النوع (ذكر/ أنثى)» والعددء والتعريف تبعًا 
للسياقات المختلفة للكلمات داخل النصوص. ويبين الشكل رقم (A)‏ الصفحة الرئيسة 
للمدونة اللغوية العربية الدولية (المدونة اللغوية العربية الدولية لمكتبة الإسكندرية» 
.(Alansary, S. & Nagi, M. 2014 :Alansary, Nagi & Adly, 2008 ‘2013‏ 


الشكل رقم CA)‏ الصفحة الرئيسة للمدونة اللغوية العربية الدولية 


ES 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o ©2111‏ ^ 


مدونة عربي LE‏ ر بص atabiCorpis‏ 
هي CN‏ لعو عربية dolia à‏ عبر الرابط التالي: arabicorpus.byu.edu‏ . وكانت 


هذه المدونة بالاساشن مشروعًا تم تصميمه وتطويره بواسطة ديلوورث باركينسون 
Dilworth Parkinson‏ الباحث بجامعة بريجهام يانج الأمريكية Brigham Young‏ 


is وتتيح هذه المدونة اللغوية إمكانية استرجاع الكلات والعبارات‎ . University 
وتضم هذه الفئات خسة أنواع أدبي رئيسةء هي:‎ UAI لتكرار ترددها في عددٍ من‎ 
.Newspapers الصحف‎ .١ 
.Modern Literature الأدب الحديث‎ . 


Y 
.Nonfiction الآدب غير القصصي‎ .۳ 
. Egyptian Colloquial العامية المصرية‎ .٤ 
.Premodern الأدب قبل العصر الحديث‎ : 

وبعضن هذه الفعات مقسمة إل pb‏ أخرى. قعل سيل UM‏ تحترى فة الصحف 
على (s‏ لصحف المصري اليوم» والأهرام» وأعمدة الشروق» والغد. والحيات 
والوطن» S‏ في مدونات لغوية فرعية 

ويبلغ عدد كلمات مدونة que‏ كوربّص 17000٠١‏ هيكل كلمةٍ موزعةٍ على 
فئاتباء يمكن البحث فيها بالحروف العربية أو بنقحرتها بالحروف اللاتينية. كا يمكن 
البحث وفقا لنوع التحشية: al‏ أو فعلاء أو صفةء أو متوالية -string‏ ومن الممكن 
LAU‏ البحث بإضافة التشكيل للكلمات أو بدونه» وبا همزة أو بدونها. ويبين الشكل 
رقم (A)‏ الصفحة الرئيسة لمدونة عربي كورّتص. 


o 


login 


login to t^e arabic corpus ste 


first time users: *egistes 


الشكل رقم (A)‏ الصفحة الرئيسة BIA‏ عربي كورتص 


um 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————————— $5‏ 


المدونة اللغوية لمتعلمى اللغة العربية Arabic Learner Corpus‏ 
يقوم عليها عبد الله الفيفي» الباحث بجامعة الإمام محمد بن سعود الإسلامية» 
المملكة العربية السعودية. ويتمثل الحدف من هذه المدونة اللغوية WWW.)‏ 
(arabiclearnercorpus.com‏ في توفير نصوص عربية مكتوبة ومنطوقةٍ حررها 
eli e‏ لمر اللبحود راض ion cca adhue dius‏ 
adii‏ 
وتحتوي هذه المدونة اللغوية على مجموعةٍ من النصوص والتسجيلات في موضوعين 
ختلفين: الأول سردي (رحلةٌ خلال إحدى الإجازات)ء والثاني للمناقشة (الاهتهامات 
الدراسية). وقد شارك في كتابة وتسجيل هذه المواد دارسو اللغة العربية في المملكة 
العربية السعودية خلال العامين MY Y NY‏ 
وتشتمل هذه المدونة اللغوية على YAYVYY‏ هيكل كلمة - التكرار YAxoV Y)‏ 
وحدة صرفية)» و 7477177 كلمة دون تكرار» عبارةٌ عن Balo ١586‏ (مكتوبة أو مسجلة) 
أنتجها 147 طالبًا من 71 جنسية و57 لغة أم a‏ مختلفة» تم تقسيمهم إلى مرحلتين : ما قبل 
الجامعة» والمرحلة الجامعية. ويبلغ متوسط طول النصوص في هذه المدونة اللغوية ٠١۸‏ 
كلمة. 
تم إنشاء هذه المدونة اللغوية لتزويد الباحثين بمجموعةٍ من البيانات مفتوحة 
المصدر؛ للاستفادة منها في مجالات البحث اللغوي» مثل: تعليم اللغة وتعلمهاء وعلم 
اللغة التطبيقي» وصناعة المعاجم. كما يمكن استخدام هذه البيانات لأغراض بحثية 
أخرى» مثل: تحليل الأخطاء اللغوية» وقياس التطور اللغوي لدى الطلاب» وتصميم 
المواد التعليمية» وتحليل اللغة المرحلية» وتأليف المعاجم الطلابية» وكذلك معاجم 
الأخطاء الشائعة. 
والح epar RUN pi‏ 
We cols. « ١‏ في ملفات نوت باد Notepad‏ بصيغة txt‏ وبتشفير Unicode‏ 
وأخرى بلغة الترميز القابلة للتمديد XML‏ وهذه تشمل جميع بيانات هذه 
doe aat‏ 
us Y‏ ا ضوئيًا للمصدر Jos‏ للنصوص المكتوبة يدويًا في ملفات 
بصيغة بي دي إف PDF‏ وهذه تشمل النصوص المكتوبة يدويًا فقط. 


ع8 ٠١ا-‏ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


Y‏ تسجيلاتٌ صوتية (أكثر من ثلاث ساعات) ف colla‏ يضيغة (MP3‏ وهذه 
تشمل التسجيلات الصوتية لأولئك الذين أعطوا الإذن بنشرها للاستخدام 
البحثى. 

وجميع البيانات في هذه المدونة اللغوية متاحة في نوعين من الملغات: 

oa colla .١ 
metadata بدون ميتاداتا‎ ° 
مع ميتاداتا باللغة العربية.‎ * 

* مع ميتاداتا باللغة الإنجليزية. 
.Y‏ ملفات بلغة الترميز القابلة للتمديد XML‏ 
* مع ميتاداتا باللغة العربية. 
* مع ميتاداتا باللغة الإنجليزية. 
يمكن للباحثين من خلال الميتاداتا التحقق من خصائص النص اللغوي» وكذلك 
من قام بتحريره. الأمر الذي يضيف عمقا أكثر لتحليل بيانات هذه المدونة اللغوية. 
وتتاح أصول الأوراقء المكتوبة يدويًا من قبل الطلاب» بعد أن تم إدخاها عن 
طريق الماسح الضوئي» وحفظها في ملفات بصيغة بي دي إف LS PDF‏ أن التسجيلات 
الصوتية Y)‏ ساعات» YY y‏ دقيقة» و ٥۹‏ ثانية) لأولئك الطلاب الذين أذنوا بنشرها على 
الإنترنت» متاحة للتنزيل في صيغة ملفات إم بي ثري MP3‏ 
وتمت تسمية جميع ملفات هذه المدونة اللغوية بطريقة تسمح بالتحقق من الخصائص 
الأساسية للنص وكذلك المؤلف؛ -S038_T2_M_Pre NNAS_W_C: pas‏ وهي 
بالترتيب من اليسار (مفصولة بشرطة سفلية): رقم الطالب» رقم النص» نوع الطالب» 
المرحلة العامة» ناطق بالعربية كونها لغته الأم el‏ ناطق بغيرهاء نوع النص (مكتوبٌ أم 
منطوقٌ)» مكان تحرير أو تسجيل النص )2014 -(Alfaifi & Atwell,‏ ويبين الشكل 
رقم )٠١(‏ الصفحة الرئيسة للمدونة اللغوية لمتعلمي اللغة العربية. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—————————‏ 


&y yall à call المدونة اللضوبة لملصلمي‎ 
ARABIC LEARNER CORPUS ALC 


الشكل رقم )* CY‏ الصفحة الرئيسة للمدونة اللغوية لمتعلمي اللغة العربية 

The Quranic Arabic Corpus المدونة العربية القرآنية‎ 

هي ud»‏ لخوية (corpus.quran.com) annotated ge‏ توضح اللغة العربية 
في ضوء الأجرومية» والنحوء والصرف لكل كلمةٍ من كلمات القرآن الكريم Dukes)‏ 
Habash, 2010; The Quranic Arabic Corpus‏ &(. وتوفر هذه المدونة اللغوية 
ثلاثة مستوياتٍ من التحليل» هي: 

:morphology annotation فية‎ „a)l التحشية‎ . 

duc‏ هله ادو لوي في قم فرعي داع لوقع اسم اكلم ل لعا 
(by Word‏ وهي في حقيقة الأمر ليست تحشي ةصرفية فقط» بل هي أيضًا تحشية نحوية 
لكل كلمةٍ من كلمات القرآن الكريم» مسبوقةٌ بنقحرتها با حروف اللاتينية» ومتبوعة 
ANNIE‏ 

ويمكن البحث في واجهة الاستخدام هنا وفقًا للسور والآيات. ويوضح الشكل 
رقم )١١(‏ التحشية الصرفية النحوية في المدونة العربية القرآنية. 


5 وا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


مهن هسه ane ans‏ مه قو [Ia‏ 


الشكل رقم CY V)‏ التحشية الصرفية النحوية في المدونة العربية القرآنية 
۲. بنك الأشجار النحوي :syntactic treebank‏ 
موجودة أيضًا في قسم فرعي داخل الموة قع باسم .«Quranic Syntax»‏ ويتم هنا 
عرض كل كلمةٍ وفقًا لموقعها الإعرابي داخل الجملة بشكلٍ رسوميء مع إمكانية تقديم 
d‏ ا 
0503 


الشكل رقم CY Y)‏ بنك الأشجار النحوي في المدونة العربية القرآنية 


—\ y- 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
6ب ييا 


لالطو لوجيا الدلالية :semantic ontology‏ 
à $2 gr ga‏ قسم ترم بالموقع باسم «أنطولوجيا المفاهيم القرانية Ontology of‏ 
(Quranic Concepts‏ . حيث يتم استخدام تمثيل المعرفة للتعريف بمفاهيم NU‏ 
في القرآن الكريم في شكل علاقاتٍ منطقية. ويبوضح الشكل رقم CY)‏ الأنطولوجيا 
الدلالية في المدونة العربية القرآنية. 


الشكل رقم )٠١(‏ الأنطولوجيا الدلالية في المدونة العربية القرآنية 


مدونة قر Qurany E‏ 
هي T HT ETE‏ القرآن الكريم .(quranytopics.appspot.com)‏ وقد تم 
تصنيف الآيات فيها وفقًا للمفاهيم أو الموضوعات المفتاحية المعتمدة على مصحف 
اتعجويد للدكتور محمد حبش» والتي تم توثيقها بواسطة الأزهر الشريف. إذ مَكٌن هذه 
المدونة اللغوية المستفيدين من البحث عن المفاهيم الواردة بآيات القرآن وفقا لأنطولوجيا 

هرمية سهلة التصفح تم بناؤها باستخدام لغة الترميز القابلة للتمديد XML‏ 

وقد تم إحصاء المفاهيم الواردة بهذه المدونة اللغوية في ٠٠٠١‏ مصطلح. وبالبحث 
بأحدها فإنه يمكن استرجاع كافة الآيات التي تدل على المصطلح المبحوث به. ويتم 
عرض كل مصطلح في سياقه (تكشيف نصوص). 


mA A 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


وعلاوةً على ذلك فإن هذه المدونة اللغوية تتيح إمكانية البحث بالكلمات المفتاحية 
وعرض النتائج كا وردت في سياقاتها القرآنية. ويتم عرض النتائج المسترجعة مصحوبة 
ARMES:‏ وبر ENN 4 ERN CEST‏ للجدوكة اللقو يه LES‏ 
بتر جة إلى الإنجليزية. ويوضح قم : قران 
قرإنى 101( 


Qurany Explorer Qurauy (meaning "my Quran" in Arabic) incorporates novel features to search for concepts in the Holy Quran. "The Koran is naiversally 
i accepted by Muslims to be the infallible Word of God as first revealed by the Angel Gabriel pearly fourteen hundred years ago. Its 114 chapters, 
or varahs, recount the narratives central to Muslim belief, ... above all, the Koran provides the rules of conduct that remain fandamental to the 


ferh Tin Keyword Search 


Muslim faith today" (Dawood, 2006) 


The Quras rarya is لومم مسيم‎ with am natnbegs wr دعاس‎ uf lors رمسم‎ tahen fram a reegnirrd espert ware. Expert insniniige med جا‎ 
rmt aring tbe Quran curpa: ذا‎ sbtatued fram Mordaf Al Tajweed, compiled bv Dr. Melamed Haband, Worwetor of tha Islamic Stadies Cautrv in 
Damus, published bv Dar Al Mearifah im Syria amid entbeurrated by tbe Al Azhar hamir Rrsrarrh Arsdemy in Egrpt.Mushaf is aunther 
weme for the word Quran’ t Arabie smi ' الى‎ Tajomwed" reires to the rules for corrretiy rrading the Qurana in Arshi 


Furthermore, it is the only tool that allows users to search the Quran corpas for abstract concepts via an ontology browser, The "Mushaf AI 
Tajweed’ contains a comprehensive hierarchical index or ontology of nearly 1200 concepts in the Quran. Scholars can use the Qurany ontology 
browser to bdentify a precise concept and find tbe verses which allude to this concept, with higher precision. 


DISCLAIMER: We cannot guarantee the Qurany service or search results will meet your needs; and we reserve the right to change or withdran 
the service. We welcome feedback and vuggestions for improvement: please rmai) e-xatmell i leedvac.uk 


الشكل رقم )£ CY‏ الصفحة الرئيسة للمدونة اللغوية "5 "ox‏ 


استقصاء المدونات اللغوية العربية Querying Arabic Corpora‏ 

corpus.leeds.ac.uk /query-ar.) لجامعة ليدز بإنجلترا‎ FERT ES id هى‎ 
MARESIA ep gae ست‎ d البحث‎ eus hi 

.١‏ المدونة اللغوية للإنترنت. 

۲. المدونة اللغوية لجريدة الحياة (من عام ١499‏ وحتى Qr Vele‏ 

۳. المدونة اللغوية ل ويكيبيديا. 

E‏ لعن العام 

EUER E E 

.٦‏ المدونة اللغوية العربية لعلوم الحاسب. 

ويبين الشكل رقم )٠١(‏ الصفحة الرئيسة لمدونة استقصاء المدونات اللغوية العربية. 


—Y4Q- 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


Querying Arabic Corpora 


* Arabic Internet. c Al Hayat News. c Arabic Viaipecia 7 Corpus of Contemporary Arabi Computer Science corpus 
Arabic legal tets v2 
Suome. | Reset COP syntax ony (Examples! Click here for getting heip on the query interface 


Set parameters of vour query 


[5 Concordance 


Context. 60< (€ for characters. w for wordi) 
| Sort by Dou sasis T'iequeucs lua * نوو‎ 

Then ty lh «rig 

Outpur 100 lines. 

Collocations 

Collocation scores Miwrtual Inforinst;on Dice Tore — ^ Loghikeiihoed scece 
Context. o words ou tie Left words oo tbe right 

POS (tag of the collocate POS ugs 


1 also created the liit Of the most frequent word forms m Inan. LOC. Wilugedua and CCA. ai well عد‎ m tbe legal coxpus. 
Aer lemmatnanon done by Maadi SAND bere st alio the frequmcy Tnt of Ingssas and rectus tlie Arabie Internet corpos 


The corpora are 


1. The Internet corpua was compoed iiag the procedure deseribesd m my papes im the OCG book 
Tbe A] Haya corpas — from A) Hayat dara (1999-2001) copied bY me LOC 
The Wikipedss ceepus — from the pubis Wii data retroeved on July 28, 20€ 
à CCA corpus froma Lan Al: Sula 
The Aratac Legal Corpus from kerworda collected by Hanem ELT arahaty, a Leeds PhD student 
6. Computer Scsence corpus of Arabic from keywords collected by Latifa Al. Sula 


The interfsce on developed by Serge Sharoff. contact use 3 4 sliaroff ~ leeds. علس عه‎ if you lice further queries 


الشكل رقم )0 (V‏ الصفحة الرئيسة لمدونة استقصاء المدونات اللغوية العربية 


سكتش إنجين Sketch Engine‏ 
اسف هذه المدونة اللغوية المعتمدة على الشبكة العنكبوتية على يد العالم آدم 
كيلجاريف في عام .ówww.sketchengine.co.uk) Y**Y‏ وتتيح هذه المدونة 
التعامل مع ٠٠١‏ مدونةٍ لغوية فرعية لأكثر من RIA‏ من بينها اللغة العربية. ويصل 
حجم بعض هذه المدونات اللغوية إلى ٠٠‏ مليار كلمة. وإضافة إلى إمكانات البحث 
التي تقدمها سكتش إنجين» فإنها توفر إيضًا إمكانية رفع المدونات اللغوية التي ينشئها 
المستفيدون والباحثون بأنفسهم» أو من خلال تجميع النصوص من الشبكة العنكبوتية. 

ويوضح الشكل رقم (Y)‏ واجهة الاستخدام الرئيسة لسكتش إنجين. 


۰ - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
O‏ 


Corpora: Recent — Myown [fete | Parallel All 
Search: 


Filter by language: all 


arTenTen [2012, Stanford tagger] 745,247» 6 Q 

Chinese Simplified zhTenTen [2011] 1,729,907,455 © Q 

Danish Web 2014 (daTenTen!4) 2,042,601,251 9 Q 

British National Corpus (BNC) 9,173 6 Q 

Early English Books Online @ 826,29,048 © Q 
English Web 2013 (enTenTen13) 19,685,733,37 6 Q 

frTanTen [2012] 9,889,649,889 © Q 

deTenTen [2013] 16,514,176,369 © Q 

itTeoTen [2010] 2,588,971,046 © Q 

8,432,256,386 © Q 


الشكل رقم OD‏ واجهة الاستخدام الرئيسة لسكتش إنجين 


وتتوافر هذه المدونة اللغوية على مستوياتٍ عدةٍ من التحليل» منها: 
Word Sketch «(JI khe‏ 

تتيح إمكانية التحليل هذه ملخصًا لسلوك الكلمات يتضمن عرض المتلازمات 
اللغوية للكلات» مصنفا وفق العلاقات النحوية؛ مثل: الكلات التى تعمل بصفتها 
فاعلاء والكلمات التى تعمل بصفتها مفعولاء وهكذا... ١‏ 

pi;‏ من هذا لتحيل ليلا oU Re ole‏ عليه ينبح الأرل iQ]‏ عفد 
مقارنةٍ بين كلمتين في لغةٍ واحدة. فيما يتيح الثاني المقارنة بين كلمةٍ في 333 ما ومقابلها في 
لغة آخرى» وذلك في إطار مخطط الكلمات. ويبين الشكل رقم OV)‏ إمكانات التحليل 
التي يقدمها خطط الكلمات في سكتش إنجين لكلمة (team)‏ 


-\\\- 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
رب > SSS‏ 


ien 
) freq = 22,442 1200.21 per milium) 
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LES 


team 2 


الشكل رقم CY)‏ إمكانات التحليل التي يقدمها مخطط الكلمات في سكتش إنجين لكلمة "team"‏ 


thesaurus Sd 


de eel الكلات:‎ coal ps d oye حكن هلم الآداة المستفيديع والبالكين‎ 

خوارزميات تضطلع بالبحث عن الكلمات التي ترد في سياقاتٍ متشاهة في إحدى 
المدونات اللغوية. وفي الوقت نفسه» تتيح هذه الآداة المقارنة بين الكلمات» والسياقات 
الفعلية التي وردت بها هذه الكلمات» مع إبراز الكلمات ذات السلوك التلازمي المشابه 


ولكنها تبدو بعيدة الصلة عن الكلمة المعنية. 


ويتم عرض المرادفات وفقا للأسرة اللغوية للكلمة» وعدد مرات تكرارهاء ونسبتها. 


المستخدم بسكتش إنجين لكلمة «argue?‏ 


a reue English Web 2013 (enTenTen13) freq = 1,269,171 (55.84 per million) 


aenehtdisc USS asse 


walfitalk advOcatesussest 
questi claim aliie > 
negana cl understand 


3 . vote 
recognize bla cite COnsider messe 
addre= | compete demonstrate - 


(verb) 

Score Freq 
0.392 2,763,400 
0.362 3,162,502 
0.350 2,114,468 
0.347 321,092 
0.345 2,075,513 
0.343 2,292,890 
0.343 737,245 
0.341 372.503 
0.338 4,829,660 
0,334 23,386,487 
0.333 5,399,739 
0.332 7,092,969 
0.330 2,599,960 
0.329 2,149,312 
0.328 3,210,169 
0.324 504.404 
0.322 39,710,664 
0.314 754,201 


Lemma 


انال 


الشكل رقم (YA)‏ صفحة المكنز المستخدم بسكتش إنجين لكلمة "argue"‏ 


Al 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
^o o HEN‏ 


concordance | ص‎ padl تكشيف‎ 

يتوافر هذا التحليل على تقديم قائمة بكافة السياقات التي تضم الكلمة أو العبارة 
المبحوث بها في المدونة اللغوية» مصحوبة ببعض الكلمات عن يمينهاء وبعض الكلمات 
عن يسارها. ويتم إبراز هذه الكلمة أو العبارة بلونٍ مختلفٍ في منتتصف صفحة العرض 
لتمييزها. يوضح الشكل رقم (19) آلية عرض كشاف النصوص في سكتش إنجين. 


inei .سمس‎ nmm DOH f v 5 © 


"- poora pun مسي‎ 
5-9 " ha art pam tpe - 

eem oun 3‏ م 

tamon ian diuini : " 

watsa be w- me Nip 

M0 ee وجوت‎ i, Orsan 
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.- teem 


الشكل رقم )١1(‏ آلية عرض كشاف النصوص في سكتش إنجين 
وينبئق من هذا التحليل LE‏ آخر يتيح إمكانية استرجاع سياقات إحدى الكلمات 
في لغة معينة» وبجوارها مقابلاتها في سياقاتها المختلفة في لغة أخرى. الأمر الذي يتيح 
مرونة أكبر أثناء المقارنة بين المفردات واستخداماتها في اللغات المختلفة. 
قائمة الكلمات Word List‏ 
تقوم سكتش إنجين بعمل فرز للكلمات وفقا لتكرار ترددها من خلال هذا التحليل. 
ويبين الشكا رقم )۲١(‏ آلية عرض الكلمات وفقا لتكرار ترددها بسكتش إنجين. 


wor n-grams requency 


58,911 
20,156 
19.074 
17,887 
14.697 
6.797 
5.644 
4,945 


3.758 
3,089 
2,994 
2,857 


الشكل رقم )١١(‏ آلية عرض الكلمات Éy‏ لتكرار ترددها بسكتش إنجين 


صلی الله عليه وسلح 
ant‏ صلى ax!‏ عليه 

رسول aub‏ صلی A‏ 
النيبي صلى al‏ عليه 
صلى ادته عليه واله 

انه g aale‏ 41 وسلم 
يسم ax!‏ الرحمت الرحيح 
الساللام عليكم ورحمة الله 
عشيكم ورحمة الله ويركاته 
الرسول صلى aub‏ عليه 
صلی a‏ عليه و 

محمد صلى ax!‏ عليه 
aui‏ عليه و سلم 

علي بت أيي طالب 


- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


استخر اج المصطلحات Term Extraction‏ 

تدعم سكتش إنجين إمكانية استخراج المصطلحات والكلمات المفتاحية من 
ات الل TON‏ حر ن الام a‏ هة ا RT‏ 
حيث يمكن للباحثين أن يقوموا برفع مدوناتهم اللغوية على سكتش إنجين التي تقوم 
يدووها coU pal odd eno‏ الل تة مع ج uad o bill cos s colos all‏ 
تعر عا ls‏ الشكل رقي QTY)‏ قاف عرض المطلحات ill cols‏ 
وفق تحليل سكتش إنجين. 


Environment: Extracted keywords and terms 
Cnaege exracton oon Download keyworos. TEX CSY. Download warma: TX CNY 
Keywords Score F o RF Terms Score FO RefF 
c2 « 17040 12394 r مسق‎ change w| 3054 544! 224,826 
biocivensily + 338 53ر14‎ 557 greennouse gas *" 3285 1143! 2 
ecosystems w. 32271 11892 34162 water quality w. 2919 B23 49251 
emissions wo 312€ $4222 206021 carbon dioxide w 2807 13115 4 
uneo u 396 22! aom renewable energy * 2473 10926 112.194 
watrshec w 2870 10555 $4903 sea هنا‎ w 2286 2224 10420 
cetorestaton w 2806 5200 14M giobal warming " 2215 11.102 129.257 
cram w 2501156373 100522 giobal cimata + 221 1 245 15403 
biomass w 257١ Q3! goos fossas fuel = 207? 4002 22470 
habitat w 26083 04604 22974 susisinablo development ٠ 2064 09009 41297 
wetlands w 2047 ano $0123 dean energy w 19457 4594 317352 
greenhouse w 2614 22314 1486522 ar polluton w 1753 3341 29003 
fesedicaton u 2545 244 GI water management w 1623 2222 12:02 
wad w 2525 19. 10457 land use w 1598 4729 42102 
donde Û 236 1550! 103281 lew axborn * 1576 213 12751 
derevinbóe w 2424 31170 223508 human heat wi 1560 3418 AIT 
reca w 2386 1508 10163 organic mater | 1588 2364 15530 
wettanc w 2363 5328 2815 coal dired power *» 1523 1854 719 
hg w 2382 38323 م‎ global imate change w 1490 Lati 22 
cardon « 23.37 05298 3100423 satar energy = 1471 021! (341 
conservation w 2014 42525 S757 energy efaency 1459 8708 73420 
stormwater 2293 4:42 20 eovironmanta pec 1447 549 5 


الشكل رقم (Y Y)‏ شاشة عرض المصطلحات والكلمات المفتاحية وفق تحليل سكتش إنجين 


-\\é- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


تحليل المتتابعات اللفظية n-grams‏ 


هو تسلسلٌ لعددٍ من الأرقام» أو الكلماتء أو الحروف. 


.. إلخ. غير إنه يشير عادة إلى 


(unigram? من الكلمات من وجهة نظر المدونات اللغوية. ويستخدم مصطلح‎ Je 
إلى تسلسلٍ من كلمتين» » فيم| يشير‎ «bigram? إلى كلمة واحدة» ويشير مصطلح‎ el 
الوحيد الذي يجمع‎ dsl dis; من ثلاث کلات» وهكذا‎ Je إلى‎ «trigram» مصطلح‎ 
بين الكلمات في تحليل التتابعات اللفظية هو ظهورها بجوار بعضها البعض؛ ولذا ليس‎ 
بالضرورة أن تكون هناك علاقةٌ واضحة بين هذه الكلمات. الأمر الذي يعنى أن خر جات‎ 
deeds «collocates à, jJ تحليل المتتابعات اللفظية ليست جميعها متلازماتِ‎ 
كيفية ضبط إعدادات تحليل المتتابعات اللفظية‎ (Y Y) استخراجها. ويوضح الشكل رقم‎ 
لاستخراج تسلسلات الكلمات والمتلازمات اللغوية في سكتش إنجين.‎ 


Clear 


Clear | format 


0 [0 = no maximum frequency] 


Subcorpus: None (whole corpus) 


use n-grams. Value of n: from 2| to 2 


háde rest sub-n-grams Q 
Filter options: 


Filter word fist by: Regular expression 


Search attribute: word 


Mániemum frequency: 5 


Maximum frequency: 


Document counts 


Vihitetist: Choose Fée | No file chosen 


Placktist 


include non-words 


Output options: 
Frequency figures: © Hit counts 


» © 


Output type: 8 Simple 
Kopnmards 


Reference 
[sub]corpus 


Profor: rare words 


Charge output 
attribute(t) 


Make word list (17) 


الشكل رقم (YY)‏ كيفية ضبط إعدادات تحليل المتتابعات اللفظية لاستخراج تسلسلات الكلمات 


والمتلازمات اللغوية في سكتش إنجين 


-١١6ه‎ 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ6ا ب اب ا 


المدونة اللغوية للإنجليزية الأمريكية المعاصرة 
The Corpus of Contemporary American English (COCA (‏ 

تعرف اختصارًا باسم «كوكا». وأنشئت على يد مارك ديفيس Mark Davies‏ الباحث 
بجامعة بر يجهام يانج "i‏ يكية .(corpus.byu.edu /coca) Brigham Young University‏ 
dij‏ هذه المدونة واحدة من أكبر المدونات اللغوية الإنجليزية المتاحة le‏ وأكثرها استخدامًا. 
وترتبط مها الكثير من المدونات اللغوية الإنجليزية الأخرى. وتحوي المدونة أكثر من OTT‏ مليون 
كلمة؛ بمعدل إضافة ui dE‏ وقد تم تجميع نصوص هذه المدونة فيا 
بين عامي ۱۹۹۰ و8١١٠‏ . وتضم خسة أنواع أدبية؛ هى: النصوص المنطوقة» والقصص» 
والمجلات» والصحف. والدوريات الأكاديمية. . ويوضح الشكل رقم (YY)‏ الصفحة الرئيسة 
لدونة كوكا. 


FREQUENCY CONTEXT 


الشكل رقم (Y)‏ الصفحة الرئيسة لمدونة كوكا 
وتتيح الصفحة الرئيسة لمدونة كوكا إمكانية البحث العام للكلمات من خلال تبويبة 
«البحث «Search‏ ومن ثم استرجاع مدى تكرار ترددها من خلال تبويبة «التردد 
«(Frequency‏ وعرض السياقات من خلال تبويبة «السياق «Context‏ . 
مُكّن تبويبة البحث الاسترجاع بالكلمة» أو بالعبارة» أو بجزءٍ من الكلمة» أو 
بالأسرة اللغوية» أو بقسم الكلمة»ء أو باثنين أو أكثر من إمكانات الاسترجاع هذه. 
إضافة إلى إمكانية استرجاع المتلازمات اللغوية في حدود عشر كلماتٍ يميئًا ويسارًا. 


"o له‎ zz 


=\\1- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


ومن الممكن أن يتم تقييد البحث في مدونة كوكا بمدى تكرار التردد» ومقارنة تكرار تردد 
esi‏ والعبارات» والأبنية النحوية» وذلك وفق النوع الأدبي» أو التحديد الزمني. 

كما أن مدونة كوكا تتيح إمكانية البحث الدلالي في نصوصها للأضداد والمترادفات» 
والمقارنة بينها في الأنواع الأدبية الخمسة التي تضمها. ويوضح الشكل رقم (YE)‏ 
صفحة البحث في مدونة كوكا. 


(® LIST Ú CHART نا‎ KWIC / COMPARE 


SEARCH STRING 8 
won ] — — —1 


COLLOCATES 

POS LIST 

RANDOM | se&RcH || Reser | 

SECTIONS W sHow a 

IGNORE 2 IGNORE A 
SPOKEN SPOKEN 
FICTION FICTION 
MAGAZINE MAGAZINE 
NEWSPAPER NEWSPAPER 
ACADEMIC M ACADEMIC M 


SORTING AND LIMITS 


SORTING | FREQUENCY v 


MINIMUM |. |  J ,..., 
FREQUENCY v | LJ |10 | 

* HITS FREQ [100 | KWIC [100 v| 

GROUP BY | WORDS X| 

DISPLAY [RAW FREQ Y|] 

SAVE LISTS [NO v] 


الشكل رقم )£ (Y‏ صفحة البحث في مدونة كوكا 
وينبثق من مدونة كوكا الكثير من المدونات اللغوية الأخرى» منها: المدونة اللغوية 
الوطنية البريطانية cBritish National Corpus (BNC)‏ والمدونة اللغوية للأخبار على 
الشبكة العنكبوتية (ناو) eNews on the Web (NOW Corpus)‏ والمدونة اللغوية 
لكتب جو جل «Google Books Corpus‏ وغيرها. 


Ye 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
!ار > د لغ ييا 


المدونة اللغوية للأخبار على الشبكة العنكبوتية 
News on the Web (NOW Corpus)‏ 

تضم هذه المدونة اللغوية حوالي Y‏ مليار كلمةٍ للأخبار الإنجليزية المتاحة على الشبكة 
العنكبوتية في الفترة من عام ٠٠٠١‏ وحتى الآن. وتنمو هذه المدونة اللغوية بمعدل يبلغ ٤‏ 
مليون كلمة b Go g‏ $3 من ٠٠٠٠١ e‏ مقال إخباري (corpus.byu.edu /now)‏ 

وتقوم فكرة هذه المدونة اللغوية على إمكانية التحقق من الموضوعات المفتاحية الجارية 
على الساحة أولًا Jab‏ فعلى سبيل JAN‏ $32 للمستفيدين استرجاع الكلمات وفقًا 
لتكرار ترددها منذ عام .٠‏ كم يمكنهم أيضًا التحقق من المصطلحات والعبارات 
الجديدة التى تعكس ما يُستجّد من موضوعاتء وكذلك الكلمات المفتاحية الدالة على 
أحدث الأخبار. 

وإضافةً إلى ذلك فإن المدونة اللغوية «ناو» تتيح إمكانية عقد مقارناتٍ بين الفترات 
الزمنية» والدول» والمواقع الإخبارية. ويوضح الشكل رقم (YO)‏ الصفحة الرئيسة 
للمدونة اللغوية «ناو). 


O B 8 mM Ê cq 


FREQUENCY CONTEXT HELP 


NOW Corpus (News on the Web) 


Compare KWIC a NOTLOGAED IN. 


You cen now downibed the NOW corpus for offime use Indudng e‏ س 
subscription for monthly updates, (The September 2017 update slone has‏ ألمصصها 
about t45 mon words of dara.) Bj the end of 2017. you would have about‏ 

fiv bilbon words of data an your aw computer. Mare informadon 


Five minute tour 


الشكل رقم )0 (Y‏ الصفحة الرئيسة للمدونة اللغوية ”ناو“ 


-١١8- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


المدونة اللغوية لكتب جو Google Books Corpus , J2-‏ 
تأتي هذه المدونة اللغوية مشروعًا تقدم به مارك ديفيس Mark Davies‏ الباحث بجامعة 
بريجهام يانج الأمريكية .(googlebooks.byu.edu) Brigham Young University‏ 
وتضم هذه المدونة اللغوية في حقيقة أمرها كل ما تحويه قاعدة بيانات كتب جو جل Google‏ 
69 التي تغطي ملايين الكتب الإنجليزية (أكثر من ٠٠١‏ مليار كلمةٍ إنجليزية) خلال 
الخمسة قرونٍ المنصرمة (الفترة من عام ٠٠٠١‏ وحتى عام .)۲٠٠۹‏ ويعرض الشكل رقم 

(Y)‏ الصفحة الرئيسة لمدونة كتب جوجل. 


GOOGLE BOOKS (AMERICAN) 


155 BILLION WORDS. (N-GRAMS) 


الشكل رقم P)‏ الصفحة الرئيسة لمدونة كتب جوجل 

QUE من خلال راجية‎ osse VIRO ALUKA قاد دراي باختضاع‎ eed 
وتتيح‎ ٠ منه في واجهة التعامل البسيطة.‎ a متقدمة تكن من البحث فيها على نحو أكثر‎ 
على مستوى الكلمة» أو العبارة» أو الجملة» أو‎ GaS واجهة التعامل المتقدمة هذه تحليلًا‎ 
الجذرء أو المترادفات» أو أقسام الكلات» أو المصطلحات المتلازمة. فضا عن أنها تتيح‎ 
إمكانية نسخ البيانات في حالة أن أراد المستفيدون القيام بتحليلاتٍ أخرى غير متاحة‎ 
من خلال واجهة التعامل المتقدمة. وكذاء يتمكن المستفيدون من التحقق من الكلمات‎ 
المفتاحية الدالة على موضوع معينٍ خلال فترةٍ زمنية محددة. وفي الوقت نفسه يمُكنهم‎ 
إجراء مقارنات بين الكلماتٌ المفتاحية الدالة على موضوعين أو أكثر خلال الفترات‎ 
ويتم عرض النتائج في شكل خريطة رسومية‎ (Davies, 2011) الزمنية المختلفة‎ 
توضح التوزيعات الإحصائية لما تم البحث به.‎ 
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cole‏ اة Lad s‏ المدوتات 3a AUI‏ ال 

توجد بعض البرمجيات التي تدعم معالجحة المدونات اللغوية العربية» ولعل من أشهرها 
برنامج أدو ات وورد سميث WordSmith Tools‏ وبرنامج أدوات معالحة المدونات 
اللغوية العربية «The Arabic Corpus Processing Tools (ACPTs)‏ وبرنامج 
انتكو نك «(Anthony, 2017) AntConc‏ وسكيتش إنجين )2015 «Sketch Engine‏ 
وبرنامج استفسارات مدونة إنتلتيكست IntelliText Corpus Queries (Wilson et‏ 
«al., 2010; Sharoff, 2014)‏ ومعالج استفسارات المدونات اللغوية Corpus Query)‏ 
Processor (COP‏ وسوف نكتفي هنا بتناول أول EU»‏ فقط بقدر من التفصيل. 
برنامج أدوات وورد سميث WordSmith Tools‏ 

هر جزم رجيات tUa AEG paid eM ie paa‏ 
عدة» ومنها النصوص العربية. ويقوم على هذا البرنامج مايك Mike Scott c» S%‏ 
الباحث بجامعة ليفربول University of Liverpool‏ وبالتعاون من جامعة أكسفورد 
(Scott, 2016) Oxford University‏ ويوضح الشكل رقم (YV)‏ واجهة الاستخدام 


الرئيسة لبرنامج أدوات وورد سميث. 
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الشكل رقم CY V)‏ واجهة الاستخدام الرئيسة لبرنامج أدوات وورد سميث 


Aye 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


العمليات الفنية في برنامج أدوات وورد سميث 

يتوافر برنامج وورد سميث على تقديم ثلاث عملياتٍ فنية رئيسة متمثلة في ثلاثة 
نظن LEA‏ 

:«Concord كشاف الكلمات المفتاحية في السياق «كونكورد‎ .١ 

يستخدم هذا النظام الفرعي في إنشاء LES‏ بالكلمات المفتاحية في السياق» وذلك 
من خلال البحث بكلمةٍ معينة في مدونةٍ لغوية Sah‏ مسبقا. 

۲. قائمة الكلمات «وورد لست :(WordList‏ 

يرتب هذا النظام الفرعي الكلمات أو أشكالًا oae‏ من الكلمات المتضمَنة بالمدونة 
اللغوية وفقا لبياناتها الإحصائية وتكرار ترددها. 

۳. محلل الكلمات المفتاحية «كى وورد :KeyWord‏ 

يستفاد من هذا النظام الفرعي في إنشاء قوائم بالكلمات المفتاحية للمدونات اللغوية 
وفقا لمجموعةٍ من المعايير الإحصائية» ويرتبها GS‏ لدلالتها الإحصائية. 

ويقصد بالكلمات المفتاحية في هذا النظام الفرعي تلك الكلمات ذات التردد العالي 
غير العادي وفقا لبعض المعدلات الإحصائية. إذ يقوم هذا النظام الفرعي بعقد مقارنةٍ 
إحصائية بين قائمتي كلماتٍ تم إعدادهما مسبقا باستخدام النظام الفرعي الخاص بقائمة 
الكلمات «وورد ليست 170501156). فالقائمة الأولى (المدونة اللغوية موضوع التحليل 
والدراسة» وهي الأقل حجًا) هي تلك التي سيتم تكشيف els‏ 

Gl‏ القاففة الكانية» cene S I‏ فهى تعمل ملفا Ge‏ أو مدونة مرجعية 
(RC e 53) reference corpus‏ يتم à‏ مقابلها عقد هذه المقارنة )1997 (Scott,‏ 

ويتيح برنامج 2555 سميث إمكانية الاختيار بين طريقتين إحصائيتين لتحليل 
الكلمات المفتاحية» هما طريقة اختبار مربع كاي UYU chi-square‏ الإحصائية» 
وطريقة احتمالات سجل الأداء log likelihood‏ التى تعطى تقديراتِ أفضل حول 
نسبة المفتاحية keyness‏ في النصوص )1993 pis (Donning,‏ الشكل رقم (YA)‏ 
كيفية الاختيار بين هاتين الطريقتين الإحصائيتين في برنامج أدوات وورد سميث. 

وللمزيد حول آلية عمل تكشيف الكلات المفتاحية في المدونات اللغوية» يمكن 
الرجوع إلى الجزئية الخاصة بعمليات معالحة البيانات على مستوى الإخراج» وتكشيف 
الكلات ضمن الفصل الثالث. 
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(E Wordsmith oO ل نا‎ 
Mohamed Mostafa 
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الشكل رقم (YA)‏ طريقة الاختيار بين اختبار مربع كاي للدلالة الإحصائية» وطريقة احتهالات 
سجل الأداء في برنامج أدوات وورد سميث 


وإضافة إلى هذه النظم الفرعية الثلاثة» OP‏ برنامج وورد سميث يتيح مجموعة 
أخرى من الإمكانات التى تضفى قدرًا أدق من التحليل على المدونات اللغوية» منها: 

:keyword dispersion 22d) ess) ce ١‏ يتم فيه التحقق إحصاتا 
من الدرجة التي تتوزع بمقتضاها ie pat‏ من القيم بشكل de‏ ضمن مجتمع 
الدراسة. وتتراوح درجة التشتت في برنامج وورد سميث ما بين ٠‏ و .١‏ فكلا 
ca il‏ القيمة من Y‏ ازداد التشدت. فيا تحر القيمة »عن اسك شديد ف المت 
(Katz, 1996; Scott, 2016) burstiness‏ 

؟. تحليل التلازم اللغوي 1002 أو ما XE)‏ عليه أحيانًا استرجاع 
المتلازمات اللغوية؛ أي التحقق من الكلمات التي تتصاحب أو تتلازم بكثرة 
مع الكلمات المفتاحية بالمدونة اللغوية. 
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Ede 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


۳. الكشف عن القوالب :pattems à XUI‏ أو ما يُطلّق عليه أحيانًا تحليل 
الأسلوب العباري للكلمات sphraseology‏ أي التحقق من البيئة اللغوية 
للكلمات المفتاحية» أو الكلمات بصفة cisle‏ داخل العبارات )2016 (Scott,‏ 


برنامج أدوات معالجة المدونات اللغوية العربية 
The Arabic Corpus Processing Tools (ACPTS )‏ 

كان يعرف في السابق باسم 5e»‏ اص C Ghawwas‏ 
(Khawas yolg‏ ويقوم عليه عبد المحسن الثبيتي بمساعدة آخرين من مدينة الملك 
عبد العزيز للعلو e‏ والتقنية Almujaiwel & Al-Thubaity, 2016; Al-Thubaity,)‏ 
Khan, Al-Mazrua & Al-Mousa, 2013‏ (. 

وهو برنامج BUR‏ مفتوح المصدر يتسم بإمكاناته الكبيرة في معالجة النصوص 
النصوص الأخرى غير العربية» كالإنجليزية» والفرنسية. ويستطيع البرنامج عرض 
تكرار تردد هياكل الكلات tokens‏ والكلات الفريدة «types‏ والوثائق. ويدعم 
البرنامج أشكالا ختلفة من الملفات؛ النصوص البسيطة ctxt‏ وملفات الوورد doc,‏ 
docx‏ وصفحات إتش تي el‏ إل html‏ کا يدعم البرنامج نظامي التشفير آنسي ANSI‏ 
.UTF-8 Ac] y‏ 

ويتيح البرنامج إمكانية قيام الباحثين والمستفيدين بتحميل ومعالجة ملف يحتوي 
على أكثر من ٠١‏ مليون lS‏ من خلال العمل في بيئة جافا JAVA‏ ويوضح الشكل 
رقم (YA)‏ واجهات الاستخدام لبرنامج أدوات معالحة المدونات اللغوية العربية. 


وكذلك كان يعرف باسم 


-١‏ يمكن تحميل البرنامج من خلال الرابط التالي: 
https://www.researchgate.net/profile/ Abdulmohsen Al-thubaity/publication/310620750 .‏ 
Ghawwas V46 An Arabic Corpora Processing Syste m ghwas 46 nzam lmaljt‏ 
almdwnat alrbyt/data/58341b5f08aef19cb81dalff/Ghawwas-V46.jar‏ 
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الشكل رقم )14( واجهات الاستخدام لبرنامج أدوات معالحة المدونات اللغوية العربية 


ويحتوي البرنامج على ثلاث واجهات استخدام: 

.١‏ یمکن من خلال واجهة الاستخدام الأول أن يقوم الباحث بتحميل ملفات 
النصوص» سواء الخاصة بالمدونة اللغوية الرئيسة» أو المدونة اللغوية المرجعية. 

lex -Y‏ توفر واجهة الاستخدام الثانية مجموعة من الإمكانات» هي: تحليل 
المتتابعات اللفظية en-grams‏ ومحرك بحث المدونة اللغوية» وحذف أو إبقاء 
علامات التشكيل» أو تعديل بعض التمثيلات» وتحديد الملفات التي يرغب 
المستفيدون في البحث فيهاء ورفع قوائم الاستثناء أو قوائم الاعتبار. 

LY‏ فيا تعرض واجهة الاستخدام الثالثة مجموعةً من الإحصاءات والتحليلات. 
حيث يمكن حساب قيمة مربع كاي للدلالة الإحصائية Chi-square‏ وطريقة 
احتمالات سجل الأداء clog-likelihood‏ ومعامل ارتباط الغرابة Weirdness‏ 
«Coefficient‏ ومعامل المعلومات المتبادلة «Mutual Information‏ ومعامل 
ارتباط .Dice Coefficient MC‏ 


ped‏ طريقة احتالاات hd‏ الأداء à‏ لقارنات el = 2 E‏ ومن 
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فيا يستخدم معامل ارتباط الغرابة في استخراج الكلمات المفتاحية والمتلازمات 
اللغوية من النصوص؛ من خلال المضاهاة بين مدونة لغوية رئيسة» ومدونة لغوية 
مرجعية . ويشار إلى ناتج معامل ارتباط الغرابة بأربعة قيم؛ القيمة الأولى للمستوى et‏ 
والقيمة الثانية أكبر من ١‏ حينما تكون الكلمات أكثر ترددًا في المدونة اللغوية الرئيسة عنها 
في نظيرتها المرجعية. والقيمة الثالثة أقل من Y‏ عندما تكون الكلمات أكثر ترددًا في المدونة 
اللغوية المرجعية عنها في نظيرتها الرئيسة. بين| القيمة الرابعة (إلى ما لا Gale‏ حين) ترد 
الكلمات في المدونة اللغوية الرئيسة فقط. 

ويفيد معامل المعلومات المترابطة في التحقق من قوة الارتباط بين المتلازمات 
اللغوية. فكلا ازدادت القيمة» ازدادت قوة الارتباط بين المتلازمات اللغوية. وتشير 
عادة القيمة الأقل من " إلى انعدام الارتباط بينها. 

بينا يدل معامل ارتباط دايس على قوة الارتباط أو ضعفه بين الكلمات والوثائق 
وتتراوح قيم هذا المعامل بين ٠‏ و .١5‏ وتظهر هذه القيم في حالة وجود ارتباطٍِ بين 
المتلازمات اللغوية. وكلم| اقتربت القيمة من VE‏ ازدادت قوة الارتباط. ويوضح 
الشكل رقم )۳١(‏ طريقة عرض التحليلات الإحصائية في برنامج عَوّاص. 
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الشكل رقم ( ١‏ ) طريقة عرض التحليلات الإحصائية في برنامج غواص 
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هذه الطبعة إهداء من المركز 
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6ب ا 


يُذكر أن هناك برامج أخرى يمكنها التعامل مع المدونات اللغوية العربية» مثل: آكونكورد 
(Roberts, 2014) aConCorde‏ وانتكونك (Anthony, 2005) AntConc‏ واستقصاء 
المدونات إنتيل تيكست (Sharoff, 2011) IntelliText Corpus Queries‏ 


الخلاصة 

قدم هذا الفصل ناذج فعلية للمدونات اللغوية المعتهدة على الشبكة العنكبوتية في 
إتاحتها وتقديم خدماتها. مع إبراز العربية منها قدر الإمكان. ومن بين هذه النماذج: 
المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنية» والمدونة اللغوية التاريخية 
للجامعة الأردنية» والمدونة اللغوية العربية الدولية لمكتبة الإسكندرية» ومدونة عربي 
كوربّص» والمدونة اللغوية لمتعلمى اللغة العربية» والمدونة العربية القرآنية» ومدونة 
قرآني» واستقصاء المدونات gaii‏ العربية» وسكتش إنجين» ومدونة كوكاء والمدونة 
اللغوية لكتب جوجلء ومدونة ناو. (S‏ قدم الفصل أيضًا أشهر البرمجيات التي تعالج 
وتحلل المدونات اللغوية العربية» ومنها: برنامج أدوات وورد سميث» وبرنامج أدوات 
معالحة المدونات اللغوية العربية. 
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دراسات استخدام المدونات اللغوية 


التمهيد 
درا سات yall E a o Les]‏ ات Lj dE ds AUI‏ 
دراسات الإفادة من المدونات اللغوية العربية في علم اللغة التطبيقي 
في النحو والدلالة 
في علم اللغة الاجتماعي 
في صناعة المعاجم 
في الترجمة 
في دراسة التوجهات الفكرية (الأيديولوجيا) 
دراسات استخدام المدونات اللغوية العربية في استرجاع المعلومات 
دراسات الإفادة من المدونات اللغوية في صناعة المكانز 
دراسات استخدام المدونات اللغوية في المكتبات 
الخلاصة 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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التمهيد 


استعرضنا في الفصول السابقة المدونات اللغوية من حيث ماهيتها وأهميتهاء 
ومميزاتهاء ومواصفاتهاء وما يمكن أن توفره» واستثارها في مجالات المعرفة المختلفة» 
وطرائق وأساليب معالجحة البيانات القائمة عليهاء ونماذجها الفعلية وبرمجيات معالجتها. 
وبعد كل ذلك وجد المؤلف أن يختتم بالدراسات العلمية» والمقالات البحثية التي 
وظفت بالفعل تلك الأداة في منهجياتها؛ سواءٌ بالتصميم والإنشاء والإتاحة» أو 
بالتطبيق العملي. 
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وفيا يلي عرض لناذج منتقاةٍ من الدراسات» موزعة على خمس فئاتٍ رئيسة. وداخل 
كل 38 رتبت الدراسات ترتيبًا زمنيًا من الأقدم للأحدث على النحو التالي: 
دراسات إنشاء وإتاحة المدونات اللغوية العربية 

نود قبل النوض في استعراض هذه الدراسات أن نشير بداية إلى إمكانية التحقق من 
مراحل إنشاء المدونات اللغوية بوجو عام ضمن تناوها تفصيلًا في الفصل الثاني. 

ومن أوائل الدراسات التي s cbe dal‏ اة رات اللغوية الح تدرا 
عبد الباسط قويدر Goweder‏ و دي روك De Roeck‏ في عام Yen‏ التي وصفت كيفية 
بناء مدونة لغوية عربية قوامها 18,5 مليون كلمةٍ من نصوص الأخبار الواردة في جريدة 
الحياة المكتوبة بلغة تبيئة النصوص الفائقة HTML‏ والتي تمثل ٠٥۹١‏ مقالة تغطي V‏ 
فئاتِ موضوعية dale)‏ وأخبارٌء واقتصادٌ ورياضية وحاسبٌ qi‏ وإنترنت» وعلومٌ 
وتكنولوجياء وسياراتٌ وإدارة أعمال). حيث وصفت الدراسة الإطار العام لخصائص 
cola,‏ البيانات وكيفية تمثيلها في المدونات اللغوية. وقد حاولت الدراسة التحقق 
من مدى الاختلاف بين إنشاء وإتاحة المدونات اللغوية العربية والمدونات اللغوية 
الإنجليزية. وفي هذا السياق استخدم الباحثان قانون زيف Zipf's Law‏ في التوزيعات 
التكرارية لكل فئةِ موضوعية» وفي التوزيعات التكرارية هذه الفئات الموضوعية مجتمعة. 
قد ات الدرامة إل أله لبس غناك وليل غل اناد اة الل لرن 
سواءٌ من حيث التوزيع التكراري أو من حيث مدى الخصوصية (الصفات المميزة 
للمحتوى). إلا أن النصوص العربية جاءت أكثر et‏ من النصوص الإنجليزية» الأمر 
الذي قد يؤثر على نجاح الطرق المعيارية (مثل تحليل المتتابعات اللفظية (n-grams‏ 
المطبقة على البيانات العربية. 

وفي عام Yeo‏ تعاون أحمد عبدالعالي مع كاوي Abdelali; Cowie) ola s‏ 
Soliman‏ &) في تقديم نموذج لمدونةٍ لغوية عربية» أو بالأحرى ie pat‏ فرعية من 
المدونات اللغوية العربية» التي من شأنها تيسير سبل دراسة العربية الفصحى والمقارنة 
بين اللغة والأسلوب المستخدم في مختلف أقطار الوطن العربي. ومن ثم إمكانية التحقق 
من التنوع المعجمي والدلالي للمفردات في تلك الأقطار. ومن أجل تحقيق هذا الهمدف 
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قام الباحثون بحصر وجمع نصوص مجموعةٍ من الصحف العربية التي تتيح محتواها على 
الشبكة العنكبوتية» مستبعدين تلك الصحف التي تتيح مقالاتها في شكل ملفات بي دي 
إف pdf‏ حيث لا يمكن معالجة النصوص العربية المتاحة بهذا الشكل. ولذلك استبعد 
الباحثون الكثير من الصحف الشهيرة من العينة المستهدفة» واستبدلوها بصحفي أخري 
gl‏ ذيوعًا. وبناءً على ذلك فقد استقر الباحثون على هذه الصحف: الأهرام المصرية» 
والرأي العام الكويتية» والوطن العمانية» ووكالة الأنباء الجزائرية» وسفير اللبنانية» 
والجزيرة السعودية» والمغرب اليوم المغربية» وبتراء الأردينة» وراية القطرية» وتشرين 
السورية» ووكالة الأنباء العراقية. 

وقد استخدم الباحثون أحد البرامج الآلية للزحف في الشبكة العنكبوتية يدعى 
54 لتجميع محتوى مواقع هذه الصحف. ثم قاموا بتطبيق قانون زيف Zipf"slaw‏ 
وصيغة ماندلبورت Mandelbort formula‏ للخروج ببعض المؤشرات الإحصائية 
حول المدونة اللغوية التي تم جمعها. وقد شملت هذه المؤشرات الإحصائية عدد ونسبة 
الكلمات مقابل عدد الملفات. واختتم الباحثون دراستهم بالتأكيد على أهمية الاستفادة 
من محتوى الشبكة العنكبوتية كونه مصدرًا Us‏ في بناء وتنقيب المدونات اللغوية 
العربية بغرض دراسة وتحليل الظواهر اللغوية المختلفة التي تصب في صالح دراسات 
استرجاع المعلومات والترجمة الآلية ومعالجحة البيانات اعتمادًا على i‏ ونصوص واقعية. 

ثم جاءت لطيفة السليطي وإيريك آتويل ليقدما نموذجًا آخر لمدونةٍ لغوية أسموها 
«المدونة اللغوية للعربية المعاصرة «(Corpus of Contemporary Arabic‏ وذلك 
ضمن تقرير مقدم لجامعة ليدز بإنجلترا في عام cre‏ ثم أعادا نشره في عام AI) 7٠٠١5‏ 
(Sulaiti & Atwell‏ حيث أبرز الباحثان في معرض ciat‏ عن الموضوع الدوافع 
وراء القيام بهذه المهمة» ومدى احتياج اللغة العربية لمثل هذا المشروع» على غرار ما 
يتم في اللغات الأوربية» وعلى النحو الذي يكفل الوصول ال حر للنصوص الواقعية 
.authentic‏ 

وكانت القاعدة الأساس التى بنى عليها الباحثان هذه المدونة اللغوية هى أنها ينبغى 
cg s SÍ‏ نصوص العربية القياسية la‏ بل أيضًا نصوص العربية المعاصرة المستخدّمة 
في أمور الحياة اليومية. وقد نظر الباحثان إلى العربية المعاصرة على أنها اللغة المستخدّمة 
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في مختلف الأقطار العربية» سواءٌ أكانت مكتوبة أو منطوقة» منذ بداية تسعينيات القرن 

الماضي وحتى تاريخ إنشاء المدونة» إضافة إلى الأنواع اللغوية varieties‏ الإقليمية 

المعاصرة. وبذلك» وفق رؤيتهماء تكون هذه المدونة اللغوية مصدرًا Ge‏ للباحثين 
"r‏ 

ولدارسي اللغة العربية تمكنهم من التحقق من العربية القياسية الحديثة» وما يصاحبها 

من مفرداتٍ جديدة» وأنواعها الإقليمية المختلفة. 

ومن أجل تحقيق هذا ال هدف قام الباحثان بتوزيع استبيانٍ على المهتمين باللغة العربية 
من مدرسين ومهندسي HX‏ بغرض استطلاع الآراء حول الأنواع الأدبية genres‏ 
التي يمكن أن يتم تضمينها في المدونة اللغوية المزمعة» وكذلك التطبيقات اللغوية 
التي يمكن أن تفيد فيها هذه المدونة اللغوية. وقد استقر الباحثان وفق ذلك على جمع 
نصوص عربيةٍ مكتوبة ومنطوقة في موضوعات ختلفة مستقاة من مجلاتٍ» ومواقع 
إلكترونيةءوصحفِ» وقنواتٍ إذاعية» ورسائل إلكترونية (emails)‏ وبلغ الحجم 
النهائي للمدونة اللغوية ۸٤١٠٠١‏ هيكل كلمة. 

Paolo و باولو روسو‎ Yassine Benajiba قدم ياسين بن عجيبة‎ Yev عام‎ d 
لأول مرةٍ مقياسًا إحصائيًا لتقييم المدونات اللغوية العربية بالاعتماد على قانون‎ 0 
كلية على بياناتٍ إحصائية. وقد نوه الباحثان عن‎ Se Yo, زبف. وقد تم بناء هذا المقياس‎ 
أنه ليس بالضرورة أن ينجح تطبيق هذا المقياس على المدونات اللغوية للغات الأخرى.‎ 
واختار الباحثان لتطبيق هذا المقياس أربع مدوناتٍ لغوية في موضوعات مختلفةٍ لتحديد‎ 
هيكل كلمة‎ ett خصائص كل مدونة لغويةٍ منها. تكونت المدونة اللغوية الأولى من‎ 
كيلو بايت) من شعر أبي الطيب المتنبي. وتكونت المدونة اللغوية الثانية‎ Ye (أكثر من‎ 
مقالة خبرية. فييا تكونت‎ ١١١ كيلو بايت) وردت في‎ 76١ هيكل كلمة (حوالي‎ oree من‎ 
المدونة اللغوية الثالثة من 005000 هيكل كلمةٍ (حوالي 175 كيلو بايت) وردت في أحد‎ 
هيكل كلمة‎ 760٠١ الكتب الدراسية. بينم تكونت المدونة اللغوية الرابعة من حوالي‎ 
كيلو بايت) مأخوذةٍ من كتب الإمام ابن القيم الجوزية.‎ £v (أكثر من‎ 

وقد اختبر المقياس المستخدم في هذه الدراسة BYW‏ عوامل رئيسة في كل مدونةٍ 
لغوية» هي: مدى التعقيد» ومدى التنوع» ومدى صحة التوزيع التكراري لكلمات 
المدونة اللغوية. وتوصلت النتائج الأولية إلى وجود علاقة ارتباط بين أسلوب الكتابة 
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وطبيعة النصوص. وقد سجل مستوى التعقيد G‏ مرتفعة في المدونات اللغوية التي 
تركز بشكل أكبر على المحتوى ى أكثر منه في أسلوب الكتابة» كا أن التنوع في استخدام 
المفردات اللغوية كان أقل في المدوثة العلمية: 

à  (AbdelRaouf & et al.) قدم أشرف عبد الرؤوف وزملاؤه‎ 7٠٠١ عام‎ d 
مليون‎ ٠ ا فا ها وهنا لبناء مدونةٍ لغوية ذات أنواع أدبية متعددة قوامها‎ 
THU palas cya iak هيكل كلمة‎ 
المواقع الإلكترونية ذات الموضوعات المتعددة.‎ .١ 
المواقع الإلكترونية للصحف والجرائد.‎ E 
:غوف الدودقة الالكتررية.‎ 
المعاجم العربية العربية.‎ . 

ك. الكتب العربية القديمة. 

5. الإنتاح الفكري الأكاديمي. 

۷. القرآن الكريم. 

aget d.‏ النصوصض التي حصروها deb‏ «عربية ا ونصوص 
xr dus AF dus‏ خا ا di> ina ERT T milla‏ 
مستقاةٌ من غرف الدردشة الإلكترونية. وتتميز هذه المدونة اللغوية بأنها مزودة بالصور 
الأصلية للوثائق العربية التي تمت رقمنتها؛ بغرض الإفادة منها في عمليات السحب 
الضوئي U‏ ۰ 

کا نشرت سلوى حمادة في عام ٠١١١‏ مقالة عن المدونات اللغوية العربية» تناولت 
فيها آهميتها في حل المشكلات اللغوية» وصناعة المعاجم» وتعليم اللغات. كا أشارت 
الباحثة إلى المشكلات التى تعوق إنشاء المدونات اللغوية الخاصة باللغة العربية» وكيفية 
مواجهتهاء وكيفية جمع e‏ الخام التي تشكل البنية الأساس لعمل المدونات 
اللغوية. ثم ساقت الباحثة مجموعة من الناذج الفعلية لمدوناتٍ لغوية وبرمجيات 
تحليلها. وتطرقت المقالة في جزئها الثاني إلى تحديد أهم النقاط التي يجب مراعاتها عند 
إنشاء المدونات اللغوية» وخطوات عملهاء وكيفية وضع التحشية cle‏ وكيفية تشفيرها. 

y‏ عام 701 نشر محمد عبد المجيد منصور É‏ في المجلة الدولية للإنسانيات 
والعلوم الاجتماعية أكد فيه على الدور الكبير الذي تؤديه المدونات اللغوية في معالجة 


m c1 a 


yp 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n———————————————‏ 


البيانات والتحليل والإحصاء اللغوي. كما أشار إلى أنه على الرغم من الأهمية المتزايدة 
للمدونات اللغوية» إلا ننا نفتقد لمثل هذا النوع من مصادر المعلومات في وطننا العربي. 
وني إطار محاولته لوضع حلولٍ عملية اقترح الباحث أنموذجًا لمدونة لغوية عربية أطلق 
عليها اسم «المدونة القومية العربية») Arabic National Corpus (ANC)‏ وذلك وفق 
أربع مراحل من التصميم: المرحلة الأولى «التخطيط للمدونة اللغوية»» والمرحلة الثانية 
«تجميع البيانات» (النصوص المكتوبة والنصوص المنطوقة)» والمرحلة الثالثة «حوسبة 
المدونة اللغوية»» والمرحلة الرابعة «تحليل المدونة اللغوية». وقد أكد الباحث أيضًا أن 
مثل هذا المشروع يفوق مستوى الأفراد؛ فهو يحتاج إلى تضافر جهود مؤسساتِ dde‏ 
إضافه إلى دعم مادي cua ge s‏ رين و تاوت [فليمي بين بلدات الوطن العري: 

كما قدم old‏ ولي )2013 s memes.‏ لمدونة لغوية عربية متعددة 
اللهجات باستخدام الشبكة العنكبوتية مصدرًا أساسًا للنصوص. وقد تضمنت 
منهجيتهم| هس خطوات رئيسة لتجميع وبناء المدونة اللغوية. 

انطوت المرحلة الأولى على تجميع الكلمات والعبارات متعددة اللهجات؛ أي التي 
تستخدم في بلدانٍ عربية ختلفة. وهذه اللهجات هي: الخليجية» والمصرية» والشمال أفريقية» 
والشامية. وني هذا السياق لحا الباحثان إلى الشبكة العنكبوتية لاستخراج كلمات اللهجات. 
وني النهاية بلغ ed‏ هذه الكلمات ٠٠٠١‏ كلمةٍ تم تصنيفها في قوائم وفقا لكل هجة. 

dinh وفق‎ JS انصبت الخطوة الثانية على التمييز بين الكلمات التي تم جمعهاء‎ à 
وهنا قام الباحثان بالتحقق من لهجة كل كلمة بالاستعانة بستة محكمين. إذ اضطلع كل‎ 
محكم بالتحقق من كلمات كل قائمة» في عدا القائمة التي تخص لهجته الأم. وبعد تنقيح‎ 
كلمة موزعة على اللهجات الأربع.‎ ٠٠٤١١ الكلمات تم الاستقرار على‎ 

وقبل أن تتم خطوة التحميل قام الباحثان بحساب متوسط عدد هياكل الكلمات 
tokens‏ التي سيتم إنتاجها لكل رابط أو صفحة إنترنت. liag‏ ما تضمنته الخطوة 
الثالثة. وبعد تقدير عدد الصفحات المطلوب تحميلها لكل iz‏ تم تنفيذ الخطوة 
الرابعة: خطوة التحميل. حيث استعان الباحثان هنا بواجهة بنج |« بي آي Bing API‏ 
لتحميل الصفحات» ثم حفظها في شكل ملفات إتش تي e]‏ إل html‏ 

وقام الباحثان في الخطوة الخامسة والأخيرة بتهذيب وتوحيد النتائج التي تم جمعها 
من مصادرها المختلفة: المنتديات الإلكترونية» والمدونات» وتعليقات المستفيدين... 


aie 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١١ ©2131‏ 


إلخ. واشتملت هذه الخطوة على التخلص من الرموز والتيجانء والمسافات الزائدة... 
غير المرغوب فيها جميعًا. كما اشتلمت أيضًا على التخلص من SUSI‏ والعبارات 
المكرّرّة في الصفحات التي تم تجميع محتواهاء وخاصةً الكلمات شائعة الاستخدام» 
مثل: الصفحة الرئيسة» وعضوء والتسجيل... إلخ. 

وبلغت الحصيلة النهائية للمدونة اللغوية التي تم تجميعها ٠١‏ مليون هيكل AS‏ 
منها Y‏ مليون كلمةٍ فريدة type‏ وني النهاية تم التحقق من جودة هذه المدونة اللغوية 
من خلال مقارنتها بمدونتين لغويتين أخريين» لاستكشاف العيوب» وإبراز المميزات. 
وفي الختام أوصى الباحثان بإمكانية الاعتماد على المدونة اللغوية المقدّمة في معالحة اللغة 
الطبيعية لنصوص اللهجات العربية. 

C‏ قام إبراهيم pi‏ الخير )2016 (Abu El-Khair,‏ ببناء مدونةٍ à d‏ للأخبار 
المنشورة بمواقع ٠١‏ صحفي عربية من ۸ بلدانٍ عربية» قوامها ۳۳٠۳۷۲۳‏ هيكل كلمة. 
ولتحقيق ذلك استخدم الباحث برنامجين لاستخراج النصوص من هذه المواقع؛ هما: 
بر نامج .MetaProducts Offline Explorer Pro(5)‏ و .Visual Web Ripper‏ 
كما أوضح الباحث أسباب اختياره هذين البرناجين دون غيرهما؛ وهي eel‏ أسرع في 
الاستخدام» فضلًا عن Gel‏ يتيحان إمكانية استخراج النصوص فقط دون الكيانات 
الأخرى غير الضرورية» كالصورء وملفات الفيديو» وملفات جافا سكريبت 
JavaScript files‏ وملفات سي إس |« | .CSS files‏ 

وإضافة إلى ذلك» فقد وضع الباحث لنفسه مجموعة من المعايير لاختيار gue‏ 
الأخبار العربية العشرة coda‏ منها: ألا يكون هناك تكرارٌ لأي ase‏ بُذل في إنشاء 
مدوناتٍ لغوية من قبل» وأن يكون الموقع متاحًا باستمرار» ويسمح Oi JU‏ 
G crawling‏ حتواه» ومن ثم يمكن استخراج نصوصه بسهولة e mga‏ وأن تكون عينة 
المواقع Ane‏ لدولٍ عربية مختلفةٍ» وأن تكون النصوص قابلة للتحرير. 

وقد لحأ أبو الخبر إلى ترميز marking-up‏ مدونته بإضافة حقول الميتاداتا مستخدمًا 
لغة التزميز L‏ القياسية SGML‏ ولخة الترمير القابلة XML JU‏ لترهيز 
النصوص. كا أنه قام بتشفير النصوص وفقا لنظام يو تي إف .UTF-8 A‏ 
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دراسات الإفادة من المدونات اللغوية العربية في علم اللغة التطبيقي 

res‏ هي الدراسات القائمة على المدونات اللغوية العربية في علم اللغة التطبيقي. 
ومن غير المبالغ فيه إذا قلنا إن علم اللغة التطبيقي يُعد الأوفر É>‏ بين علوم ومجالات 
المعرفة الأخرى المستفيدة من المدونات اللغوية. 

ومن الصعوبة بمكانٍ أن نشير إلى كافة الدراسات التى استثمرت المدونات اللغوية 
coL da s ai‏ :نيا c Jal‏ بو d s ja Ob‏ كنات Lad‏ الإقاج d ig Sall‏ 
الموضوع بحيث يكون مرجعًا لكل المهتمين. غير أننا سنحاول هنا أن نسرد بعضًا من 
هذه الدراسات محاولين تصنيفها تبعًا لفروع علم اللغة المختلفة. 


فى النحو والدلالة 
l‏ نود قبل ا لخوض في استعراض هذه الدراسات أن نشير بدايةً إلى إمكانية التحقق من 
الإفادة من المدونات اللغوية في تدريس وتعلم اللغات بوجو عام ضمن تناوها تفصيلًا 
في الفصل الثاني. 

وني هذا السياق» استعانت شيماء عيسى )2013 (Essa,‏ خلال رسالتها للماجستير 
بمدونة غربي كوربص flol‏ رئيسة للبحث والدراسة: وتحديداء المدونة اللغوية الفرعية 
لأعمدة الشروق البالغ عدد كلماتها TIVITY‏ هيكل كلمة» لدراسة ثلاثِ من أدوات 
الربط العربية؛ وهي: dl]‏ وبينا» وبّل. وذلك ue‏ التحقق من سلوكها اللغوي كونها 
أدو ات استدراكِ .adversative‏ واكتفت الباحثة بعينة عشوائية ل «بل» و OD‏ تغطي 
٠١‏ من الأمثلة السياقية المذكورة في هذه المدونة اللغوية. في أخذت الباحثة كافة 
الأمثلة المذكورة ل 25( لتحليلها؛ نظرًا لقلة عدد أمثلتها المذكورة بالمدونة اللغوية 
NO MEUM TANE‏ 

ndis‏ التحليل ER d‏ الدراسة على أدوات الربط الثلاث هذه في ضوء 
التركيب المعجمى النحوي dexico-grammatical pattern‏ والسلوك التلازمي 
behavior‏ 5507 والعروض الدلالي .semantic prosody‏ وأو و 
النتائج تشارك rop‏ و «بل» في بعض التراكيب المعجمية النحوية» والسلوك التلازمي. 
فيا تفردت ouo‏ بخصائصها. وم يكن هناك ل Uep‏ و lea‏ عروض دلا bls‏ 
سواءٌ في المعنى الإيجابي أو ني المعنى السلبي لما. وذلك على عكس أداة الربط «بل» التي 
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كان لأحد تراكيبها المعجمية النحوية عروضٌ Y»‏ واضحٌ. وأظهرت النتائج كذلك أن 
أدوات الربط الثلاث لما السلوك التلازمى نفسه.. 

وأشارت التوائنة أا إل اتدل الرخو مح ان ينض السار كات اللخوزة لأدرات 
الربط الثلاث تعزو إلى أوجه التشابه أو الاختلاف في معانيهاء فإن بعض السلوكيات 
اللغوية الأخرى لا تُفهم ÝI‏ من خلال الكشف عن درجة دلالة هذه الأدوات في زمن 
المستقبل. كا أكدت الدراسة على الدور الذي يمكن أن ُسهم به نتائج هذه الدراسة في 
تدريس اللغة العربية؛ سواءٌ في إعداد الدروس التعليمية» أو في تحديث وتطوير المواد 
والكتب الدراسية حول أدوات الربط الثلاث هذه. 

C‏ قدم أحمد إسماعيل )2015 (Ismail,‏ في رسالته للماجستير منهجية اعتمد فيها 
على مدونةٍ لغويةٍ قوامها 81047 هيكل كلمة تن سبعة أفلام سينائية مصرية؛ هي: 
عارة يعقويبان» وبحب السيهاء وأرض الخوف» والكيت كات» والبداية» والكرنك» 
وفي بيتنا رجل. وذلك دف دراسة ثلاثِ من أدوات الخطاب العامّي في الدّارجة 
المصرية؛ هي: بَقَىَ b, bs‏ واعتمد لاحت PRR‏ اللغوية على 
برنامج أدوات وورد سميث. 

واقتصر الباحث في دراسته على تحليل النواحى الدلالية والنحوية والتلازمية هذه 
الأدوات الثلاث. وقد أظهر التحليل أن هذه T‏ الثلاث تؤدي وظائف لغوية 
عدم فضلًا عن أنه يمكنها أن تعمل (بشكل متزامنِ أحيانًا) على مستوى الخطاب 
والمحادثات الشخصية. كما أا لا SU‏ فراغات الكلام فحسب» بل أيضًا تؤدي دورًا 
حيويًا في بناء وتماسك العلاقات النصية والاجتاعية للكلام. 

وإضافة إلى ذلك» فإن سطور كشاف نصوص كلمة (LÀ‏ أوضحت آنا تفيد في 
إضفاء السلاسة والتىاسك على لغة الخطاب من خلال دورها في تيسير وتوضيح elelo‏ 
الكلام» وإشارتها لتوجهات وشعور المتكلم. وبين) نُستخدم AD‏ في بدء الحديث» 
فإن كلمة o»‏ وكلمة (CÍ‏ تتخذان مواقع مختلفة داخل الجمل» وذلك على حسب 
الوظائف النحوية التى تؤديها هاتان الأداتان الخطابيتان. 

كا تقدم سلطان ا ximo 3$) e (VO‏ للمؤتمر الدولي الثاني في الا تجاهات 
الحديثة في تعليم العربية لغة ثانية» اقترح من خلاها تحليلا تطبيقيًا لنظرياتٍ معجمية 
في إطار التحليل gsal JY‏ في لسانيات المدونات اللغوية «Corpus Linguistics‏ 
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ولأغراض التحليل المعجمي المفتوح للغة» وفقا لسياقها البحثي المتنوع والخاص 
لخرض معجمي معيّنٍ. وركزت الورقة على مناهج نظرية تطبيقية تعرف باسم: التهيئة 
المعجمية lexical priming‏ و التلازم اللغوي collocation‏ ودور «التجميع ( nesting‏ 
وتعبئة الفجوة المعجمية lexical gap-filling‏ في النحو النمطى | .pattern grammar‏ 
وسعن cie edi‏ إل ی ع e secu‏ يوق يلياك 
للناطقين بغير العربية (الفوزان وآخرون Yo‏ من ciga‏ والمعجم الوسيط للناطقين 
بالعربية (Yit)‏ من جهة ثانية؛ وذلك ae‏ الكشف عن مدى حضور التعبئة المعجمية 
وتبيئتها في متون هذه ا معاجم» وعن فوائد تلك المناهج في تطوير المعجم العربي الخاص 
بتعليم العربية لغير الناطقين بها. وأورد الباحث سبب إدخال المعجم الوسيط إلى كونه 
معاصرًا ومتسعًا نوعًا ماء وجامعًا بين الشارد وبين الجدّة في الاستعمال أولاء ومتوفرًا 
-ثانيًا- لتحويله إلى ملف النصوص البسيطة cplain text‏ وملف القيم المفصولة بفاصلة 
(إكسل) comma separated value csv‏ 

بين| استخدم أيمن الدكروري )2016 (Eddakrouri,‏ المدونة à; XUI‏ أوساك 
0 التي تحوي نصوص الأخبار العربية المنشورة بموقعي سى إن إن CNN‏ و بي 
بي سي «BBC‏ والبالغ عدد كلماتها 41٠١71775‏ هيكل NT als; GaJS‏ وتحليل اثنين 
بن أكثر الط رف العرية MEAE PETEN‏ 

وقد اعتمد الباحث في تحليله لهذه المدونة اللغوية على برنامج أدوات وورد سميث 
لاسترجاع كافة السياقات التي ورد بها هذان الظرفان. وقد انضوى التحليل اللغوي 
هذه السياقات على الخصائص الدلالية والوظائف الترابطية» والمميزات النحوية» 
والاستخدامات الاصطلاحية هذين الظرفين. ومن ثم تمكن الباحث من تقسيم واقعات 
تكرار كلمة "بعد" إلى ثلاث cob‏ رئيسة تبّعا لمعناها؛ وهى: بعد (في معناها المباشر)» 
وبعد ذلك/ ثم» والتعبيرات الاصطلاحية ل "بعد". EIE‏ تقسيم واقعات تكرار 
كلمة "قبل" إلى ثلاث فئاتٍ (LAT‏ هى: قبل (في معناها المباشر)» ومنذء والتعبيرات 
الاصطلاحية ل "قبل". l‏ 

وقد أبرزت نتائج الدراسة الدور الكبير الذي يؤديه هذان OU JEJE‏ في وحدةء 
وتماسكء وانتظام» وفهم الأخبار العربية المنشورة على الإنترنت. ىما كشفت نتائج 
الدراسة عن المعاني الواقعية الأخرى هاتين الكلمتين؛ كتلك التي تم توضيحها عند 
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ces‏ إلى فئاتٍ Uo‏ لمعانيها ودلالتها. وكان من بين النتائج أيضًا ما أبرزته الدراسة 
من وجود اختلافٍ في تكرار تردد كل معنىّ من معاني "قبل» و «بعد). حيث تُستخدم 
Ca)‏ بمعناها المباشر في معظم السياقات التي ورددت بها gus (AN)‏ بعدها 
معنى «بعد ذلك/ ثم CNE O)‏ ثم باقي الاستخدامات الاصطلاحية ها (۱.۷./). كا 
استخدمّت «قبل» بمعناها المباشر في معظم سياقاتها CY. V) LÉT‏ ثم بمعنى «منذ» 
0 /) ثم باقي استخداماتها الاصطلاحية الأخرى V)‏ .4/( 


U‏ علم اللغة الاجتماعي 

نود قبل الخوض في استعراض هذه الدراسات أن نشير بداية إلى إمكانية التحقق من 
الإفادة من المدونات اللغوية في علم اللغة الاجتماعي بوجو عام ضمن تناو ها في الفصل 
الثاني. 

وفي هذا UNI‏ قدم مارك فان مول )1998 «(Van Mol,‏ صاحب الإسهامات 
البارزة في هذا الصدد. دراسة رائدة في استثار المدونات اللغوية العربية. كانت هذه 
الدراسة بالأساس رسالة دكتوراه مكتوبة باللغة الألمانية» نوقشت في الجامعة الكاثوليكية 
ببلجيكا. ثم قام فان مول بعدها بحوالي ست سنوات بترجمتها إلى الإنجليزية ونشرها في 
صورة كتاب )2003 (Van Mol,‏ وتمثل المهدف الرئيس من هذه الدراسة في التحقق 
من التباين variation‏ في استعمال اللغة العربية من دولة لأخرى eel‏ على المدونات 
A ALI‏ 

حيث اعتمد الباحث على مدونة لغوية à.‏ الكلمات POS tagged corpus‏ 
لنشرات الأخبار الإذاعية قوامها 7٠٠٠٠١‏ كلمة منسوخة .transcripted‏ واستقر 
الباحث على لغة الإعلام Gof G y‏ ميلا للعربية القياسية الحديثة Modern Standard‏ 
„Arabic (MSA)‏ كما استقر الباحث على ثلاث دول عربية ختلفة» هي: الجزائر» 
ومصرء والسعودية للتأكد من مدى التباين اللغوي فيا بينها. ولبلوغ هذا ادف قام 
الباحث برسم tagging‏ هذه المدونة اللغوية على مستوى الكلمة Bel‏ على قواعد 
النحو العربي. 

وقد ركز الباحث في دراسته على وصف الزمن أو التزامن في استخدام الأدوات 
التكميلية complementary particles‏ بالمرجعية لقواعد نحو العربية المعاصرة. 
وقد أوضحت نتائج تحليل المدونة اللغوية أن هناك اتساقًا كبيرًا في استخدام الأدوات 
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التكميلية في هذه الدول العربية الغلاث على المستوى النحوي. غير إن هناك اختلافا كبيرًا 
في الوظائف التي حددتها كتب النحو التقليدية للأدوات التكميلية موضوع الدراسة. 
حيث إن استخدام «س» و «سوف» للاستقبال لم يميز بين المستقبل القريب والمستقبل 
البعيد» ما أوضحت كتب النحو التقليدية. وأظهرت الدراسة كذلك اختلافاتٍ 
جغرافية في استعمال عبارتي «في الوقت نفسه» و «في نفس الوقت» اللتين وردتا بالعدد 
لبد من التكران لد أنه كان هناك اختلاف في استعمالم| في الدول المختلفة. فعبارة «في 
الوقت نفسه» وردت بكثرة في النصوص المصرية» بين لم ترد في النصوص الجزائرية. أما 
في النصوص السعودية فقد وردت العبارتان بتردداتٍ متساوية. 

يذكر أن فان مول طوّر المدونة اللغوية التي بناها في الدراسة السابقة» واستثمر ها 
في do st‏ متعاقبة من الدراسات الأخرى التي أفادت علم اللغة التطبيقي بوجو عام. 

وقد لتق eal‏ آخر بقطار الرواد في دراسات علم اللغة الاجتاعي المعتمدة عل 
المدونات اللغوية» وهو ديلوورث باركينسون Dilworth Parkinson‏ الباحث بجامعة 
بريجهام يانج الأمريكية Brigham Young University‏ . ذلك حين) قدم ias‏ للتحقق 
من التباين اللغوي في استخدام الأدوات الدالة على future particles | zz‏ بين 
الدول العربية )2003 (Parkinson,‏ إذ اعتمد باركينسون على مدونةٍ لغوية قوامها £o‏ 
مليون كلمة تم تجميعها من صحف عربية تمثل دولا مختلفة وهي: الأهرام ck pal‏ 
والحياة السعودية اللبنانية» والتجديد المغربية» والوطن الكويتية. 

وقد أوضحت نتائج تحليل الأدوات الدالة على المستقبل في هذه الدراسة» وهي 
«س» و«سوف»». أن هناك تبايتا كبيرًا من دولة عربية لأخرى» ومن t»‏ أدبي (x‏ 
ومن de‏ لآخر. 

کا اعت ael‏ عبد العالي )2004 (Abdeali,‏ على مدونة لغوية لعشر صحف قومية» 
تمثل دولا عربية ختلفة قوامها ۲۲۲۸٠١١‏ هيكل كلمة؛ دف التحقق من توطين اللغة 
23 من خلال مقارنة اللغة المستخدمة في مواطن ختلفة من العام العربي» في 
ضوء الخصائص المعجمية للعربية القياسية الحديثة .Modern Standard Arabic (MSA)‏ 

وأوضحت النتائج أن العربية القياسية الحديثة تبدو متسقةً جدًا في كافة الدول 
العربية التى شملتها الدراسة. غير إن هناك بعض الفروق أو الاختلافات المهمة التى 
EN e‏ والتي يمكن الاعتداد بها في المعالجة الآلية للغة. وقد قشم الباحث ER‏ 
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الاختلافات على النحو التالي: 


.١ 


اختلافاث في رسم الحروف: فالطبيعة الاشتقاقية العالية للغة العربية أدت 
إلى اختلافاتٍ ملحوظة في رسم الكثير من الحروف بين البلدان العربية. 
ومن الأمور الأخرى التى أدت بشكل أو بآخر إلى إحداث هذه الاختلافات 
المراخل i‏ حول تطوير قراعد الجر «qa adl‏ والثاذوات المتعددة لقراءة 
القرآن الكريم. وتتضح هذه الاختلافات في بعض الكلمات» نحو: إدارة = 
أدارة» أيام - ايام» الأربعاء - الاربعاء» Ael‏ - احمد. 


. اختلافات في نقحرة الكلمات: فللغات الأجنبية DU‏ على العربية القياسية 


الحديثة. ويظهر هذا التأثير في طريقة نطق بعض الكلمات اعتادًا على نطقها 
باللغة التي استقيت منهاء ولاسيما اللغة الإنجليزية» واللغة الفرنسية. 
فاختلاف صوت حرف GO‏ في الإنجليزية عنه في الفرنسية» وكذلك JUL‏ 
مع أصوات حروف هوء و ech‏ وغيرهاء doo «eol‏ إلى الاختلاف في نقحرة 
بعض الكليات» نحو: الإنترنت - الانترنت. 

اختلافات في الاستعمال: فهناك بعض الكلمات التى تختلف في استعالاتما من 
منطقة عربية لأخرى. حتى أن هناك كلماتٍ عربية gis‏ أو ربا يندثر» استعمالها 
في بعض أجزاء من الوطن العربي» eus‏ تظل هذه الكلمات مستخدمة في أجزاءٍ 
أخرى. كا في: عنبر - مرقد» حجز - توقيفء آيلة للسقوط - معرضة للسقوط. 


. اختلافات في الأساء: فقد أدت الطبيعة القبلية القوية في بعض المناطق العربية إلى 


استعمال بعض الأساء في نطاق بعض القبائل دون خارجها. CS‏ في: فهد» فوزية» 
موضى» نورة» سطام» آل» الغامدي. العتيبي» الحربي» الشمري» القحطاني» الزهراني. 


. اختلافاث في نحت واشتقاق الكلمات: تظهر هذه الاختلافات Úle‏ مع 


الكلات الدغيلة الى تلف باغخلاف اللغة dall i.i!‏ وغملية 
التكييف نفسها. كا في: كابل - حبل <<< cable‏ الخصخصة - الخو صصة 


.Privatization <<< 


واعتمد عبد الرزاق )2014 (Abdul Razak, June‏ الباحث بجامعة ماليزيا للعلوم 


الإسلامية» على مدونةٍ لغوية قوامها ۸۷٠٠١‏ هيكل ied‏ جمع محتواها من قسم الشؤون 
الدولية لسبع صحف عربية مختلفة UTI‏ وذلك بهدف التحقق من الاختلافات في 
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استخدام الكلمات العربية من دولة لأخرى. وقد تبنى الباحث نظرية آدم كيلجاريف 
(Kilgarriff, 2001)‏ التي تذهب إلى أن تحليل مدى الاتساق في استخدام الكلمات في 
المدونات اللغوية من الممكن أن يكشف عن الاختيارات المعجمية. ولذا ركزت الدراسة 
على مناقشة أنواع عدة من تباين «variations of nouns «(WI‏ واستخدام الأفعال. 
وف هذا السبيل؛ استخدم الباحث في تحليله للمدونة اللغوية برنامج أدوات وورد 
سميث. وقد أظهرت النتائج أن الصحف العربية ها دورٌ كبر في إحداث التباين في 
استخدام الكلمات؛ ولاسيما C‏ يخص الهجاء» والكلمات الدخيلة» وتعدي JYI‏ 
وتكوين العبارات» وبناء صيغ الجمع. وقد أرجع الباحث بعضًا من هذا التباين إلى تأثير 
اللغات الأجنبية» وخاصة اللغة الإنجليزية» على استخدام الكلمات في اللغة العربية. 


في صناعة المعاجم j‏ 

نود أيضًا هناء وقبل الخوض في استعراض هذه الدراسات» أن نشير أولا إلى إمكانية 
التحقق من الإفادة من المدونات اللغوية في صناعة المعاجم بوجه عام ضمن Ub JUS‏ 
تفصيلا في الفصل الثاني. 

وقد جاءت أول محاولةٍ لاستثار المدونات اللغوية في صناعة المعاجم العربية على 
يد مارك فان مول )2000 (Van Mol,‏ ذلك حين) قام هذا الباحث ببناء مدونةٍ لغوية 
للعربية القياسية الحديثة قوامها ٠٠٠٠٠٠١‏ كلمة تغطى اللغة المستخدمة في عددٍ من الدول 
اا ينها ali ute don und pma HM‏ لاتق ی e tll‏ 
المكتوبة في GLS ٠١‏ دراسيًا. وهكذا مثلت هذه النصوص المكتوبة ما نسبته INO‏ من 
إجمالي نصوص المدونة اللغوية؛ والبقية (YO)‏ نصوصٌ منطوقة. 

ثم قام الباحث بترجمة كل كلمةٍ وكل جملةٍ وردت بالمدونة اللغوية» مستعيئًا ببعض 
المعاجم «s MI‏ حتى بلغ عدد المداخل العربية 17٠٠١‏ مدخلء eai‏ بلغ عدد المداخل 
الألمانية 7٠٠٠١‏ مدخل. 

وبعد هذه les x o‏ قدم فان مول دراس أخرى مع زميله هانس بولوسن 
(Van Mol & Paulussen, 2001)‏ اعتمدا فيها على مدونةٍ لغوية للعربية القياسية 
الحديثة قوامها ٠٠٠٠٠٠١‏ كلمة. ويبدو غالبا أا المدونة اللغوية نفسها التى اعتمد عليها 
فان مول في دراسته السابقة. Ote LI rea jl,‏ أن call‏ م يناه هذه i gall‏ لكر 
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هو تصميم قاعدة بياناتٍ علاقية أسماها آرالات cAraLat‏ اختصارًا ل «العربية مقابل 
لغات النصوص اللاتينية (Arabic vs. Latin script Languages‏ بحيث يمكن 
استخدام قاعدة البيانات هذه في توليد نُسخ ورقية ية وإلكترونية للمعاجم العربية SU‏ 
اللغة. وكان المعجم الناتج عن هذا المشروع معجمٌ "y Gul qui- Qo‏ 

واعتمد الباحثان في بناء هذه المدونة اللغوية على نصوص عربية واقعية منطوقة. غير 
s‏ مصدرها. ومن أجل الخروج بنتائج أكثر «3s‏ قام الباحثان يوشم tagging‏ 
كلمات آرالات آليا. وقد امتد وسم ALII‏ ليشمل أيضًا مستوى الجذر؛ بحيث يمكن 
ترتيب الكلمات في المعجم وفقا للجذور. 

وبعد أن ترجم الباحثان كل الكلمات العربية إلى الألمانية» قاما بتقسيم التراكيب إلى 
أربعة مستويات من التحليل والعرض. وهكذا يمكن للباحثين أن يستفيدوا من مدونة 
آرالات عند الشروع في صناعة أي معجم عربي للعربية القياسية الحديثة. 

وفي العام نفسه» جاء سالم غزالي وعبد الفتاح برهام )2001 (Ghazali & Braham,‏ 
بدراسة حاولا فيها التأكيد على الدور الكبير الذي يمكن أن تؤديه المدونات اللغوية 
في صناعة المعاجم العربية. حيث اعتمد الباحثان على مدونةٍ لغوية قوامها ٠٠٠٠٠٠١‏ 
كلمةٍ تم تجميعها من عدة صحفي وججلاتِ عربية» في موضوعاتٍ ختلفة» ومن دول 
ختلفة. وكانت من مصادر هذه المدونة اللغوية أيضًا كتبٌ للمرحلة الثانوية في كافة 
المواد الدراسية» عدا مادة العلوم» يتم نلاريسها فى دولة تز إضافة إل الاتجيل: 
وأطروحات دكتوراه» وقصصٍ ورواياتء مثل (UMP‏ لطه حسين» وأعمالٍ أخرى في 
الأدب العام. 

ومن أجل إثبات الفرضية التي حاول الباحثان طرحهاء فقد اختارا فعلًا Ge‏ شائع 
الاستخدام, وله معانٍ ختلفةء وهو الفعل «أخذ». حيث سرد الباحثان له المعاني التي 
وردت في «المعجم الوسيط». ثم حصرا السياقات المختلفة التي ورد بها هذا الفعل في 
المدونة اللغوية» وصنفا هذه السياقات وفقا لكل معنىّ من معاني «أخذ). 

وأوضحت نتائج تحليل معاني «أخذ» أن هناك معانٍ سياقية أغفلتها معاجم اللغة 
العربية. هذه المعاني لا تتضح سوى بالرجوع إلى أكبر قدر ممكنٍ من السياقات» مع تحليل 
البيئة المعجمية النحوية للكلمة. 
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كما كان لسامح الأنصاري إسهامٌ في التأكيد على الدور الكبير الذي يمكن أن تؤديه 
المدونات اللغوية في صناعة المعاجم العربية ا ade cbe‏ 
لبناء معجم معجم آلي للغة العربية Bll‏ على مدونة لغوية )2005 .(Al-Ansary,‏ حيث 
أوضح الباحث كيفية استغار المدونات اللغوية في تصميم أداة لمعالحة اللغة الطبيعية: 
المتمثلة في المعجم JYI‏ الذي اقترحه؛ تحقيقا لأربعة أهدافِ» هي: 
.١‏ تقديم استراتيجية للتحقق من المداخل العربية لمعجم Ji‏ قائم على el.‏ 
واقعية .authentic‏ 
؟. تصميم أداةٍ تسهم في تحليل مدونةٍ لغوية ضخمة للغة العربية. 
Y‏ رسم الخطوط العريضة لقاعدة بياناتِ معجميةٍ للغة العربية على غرار قاعدة 
بيانات سيليكس CELEX‏ للغة الإنجليزية. 
إرساء البنية الأساس للتطبيقات العربية لمعالحة اللغة الطبيعية. 
ولتحقيق هذه الأهداف فإن الأمر استدعى مجموعة من المتطلبات» A‏ أوضحها 
الباحث في الآني: 
.١‏ مدونة لغويةٌ للعربية القياسية الحديثة. 
-Y‏ واجهة استخدام لتحليل النصوص العربية. 
۳. نظام إدارة قواعد بياناتٍ لغوية للفحص JYI‏ للبيانات التي يتم تحليلها. 
i‏ شكلة لعفل اجه 
"T‏ ساسح سيم أو المراحل للشروع في إنشاء هذا 
ا 
MI‏ 
Y‏ مرخلة الصا اللغوية والفنات المسجمية: 
LY‏ مرحلة دمج المدونة اللغوية وقاعدة البيانات اللغوية. 
5. مرحلة تنفيذ المعجم. 
.٥‏ مرحلة اختبار التطبيقات والاستخدامات المستقبلية للمعجم المقترح. 
5. مرحلة الخروج بالنتائج والمؤشرات المبدئية تمهيدًا لما يتلوها من مراحل. 
و ال لت لو معجمي 
للمتلازمات اللغوية في العربية المعاصرة في ضوء مدونة لغوية. ae‏ 
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بجمع المتلازمات اللغوية من المعاجم العربية المعاصرة؛ والمتمثلة في ثلاثة معاجم 
ختارة» هي: المعجم الوسيط» ومعجم العربية المعاصرة لأحد غتار عمر» ومعجم 
العربية العاصرة الكتوبة انزف وقد تم جمع هذه التلازمات يتا على معاي ددا 
وضعتها LIE‏ هي: ضيق المدى» والتوافق» والتواتر. 3 ثم قارنت الباحثة هذه 
المتلازمات اللغوية (o‏ في المدونة العربية التابعة لمدينة emd EET‏ 
المقياس الإحصائي (Log Dice?‏ الذي يتيح في نتائجه العلاقة بين الكلمة والمصاحب 
cl‏ وتكرارهما Us‏ من حيث المتوقع والملحوظ. وكان الهدف العمل على تجسير الفجوة 
بين المعجم اللغوي والمعجم lee I‏ (المدونة). 

وقد تم في هذه الدراسة اختيار مئة متلازمةٍ لغوية الأكثر ورودًا في المدونة» ووردت 
في المعاجم الثلاثة» ثم مقارنة معطياتها بمعطيات المدونة حسب المقياس الإحصائي. ثم 
تقسيمها حسب المجالات الديئية» والسياسية» والاجتاعية: والاقتضادية» والثقافية. 
ثم دراسة معطيات المدونة العربية من المتلازمات دراسة تركيبية دلاليةء وإعادة توزيعها 
حسب نظرية الحقول الدلالية . ومن ثم وضعت الباحثة نموذجًا معجميًا pre Ue e‏ 
عام كبايل للطلازيات اللغوية فق العرية المعاضرة. 


في ie‏ 
f‏ نود أن نشير بداية إلى إمكانية التحقق من كيفية استثار المدونات اللغوية في الترجمة 
بوجو عام ضمن تناوها تفصيلا في الفصل الثاني. 

عد دراسة ماثيو جيدير )2002 (Guidere,‏ من Jii‏ الدراسات حول كيفية 
استخدام المدونات اللغوية العربية في الترجمة. حيث أشار الباحث في هذه الدراسة إلى 
أنه يمكن منهجيًا الجمع بين المقاربة اللغوية والمقاربة الإحصائية لضبط ورفع كفاءة 
معالجة المدونات اللغوية ثنائية اللغة بها يتسق مع متطلبات الترجمة الآلية. 

كما أوضح الباحث أن ذلك يستلزم مطلبين مبدثيين رئيسين» هما: 

.١‏ تحديد وتكوين وحدات ie JP‏ (أي الكلمات» والجمل» والفقرات» 

والفصول). 
؟. استخدام معجم ثنائي اللغة (إنجليزي-عربي» أو فرنسي-عربي). 
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كما أكد الباحث على أنه ليس هناك حاجةٌ لوسم الكلمات نحويًا أو G o‏ داخل 
المدونتين اللغويتين المستخدمتين. بل إن هذا يرجع إلى البرامج الآلية في إيجاد المقابلات 
اللغوية من خلال مقارنة المدونتين اللغويتين ذواتي العلاقة الترحية ed‏ بينهما. 

وفي الوقت نفسه. شدد الباحث على ضرورة الانتباه إلى ثلاثة أمورء هي: 

.١‏ جودة وحجم المعجم ثنائي اللغة المستخدّم. فمن ا ol‏ يكون هذا 
القاموس ca‏ جدًا من ناحية ا معلومات النحوية التي يقدمهاء غير أنه يتعين 
ol‏ يكون 528 على دمج الكلمات المجهولة sd‏ المدونة اللغوية ثنائية 
اللغة المستخدمة. 

Y‏ نوع البيانات المستخدّمة. فمن الممكن أيضًا أن toad‏ النصوص ثنائية اللغة 
المرصوفة المستخدّمة مشكلة إذا ما كانت جودة المدونة اللغوية ضعيفة» أو 1 
تقبط جد براسطة أخل el all‏ 

۳. دقة النظام JYI‏ المستخدم» وجودة الترجمة المعتمدة على حجم البيانات 
التجريبية المتاحةء وإحكام التزامن في المدونة اللغوية. 

توالت بعد ذلك الجهود والإسهامات العلمية في جال الترجمة القائمة على المدونات 

اللغوية العربية. وكان من بينها دراسة CAl-Muhanna, 2003) Lell‏ حينا اعتمد 
عل Eds‏ لغوية للأسياء والصفات A‏ في المضطلحات الإتجليزية العلمية 
والتكنولوجية؛ وذلك في محاولةٍ لنقلها إلى العربية. KS‏ اعتمدت رسالة دكتوراه إزويني 
(Izwaini, 2004)‏ على مدونة لغوية للمفردات الإنجليزية في تكنولوجيا المعلومات» 
وترجماتها إلى العربية والسويدية. 


في دراسة التوجهات الفكرية (الأيديولوجيا) 

ربا تعود أول دراسة عربية في تحليل التوجهات الفكرية» أو بالأحرى تحليل الخطاب 
النقديء اعتمادًا على المدونات اللغوية إلى دراسة الشمري والمحمود CP YO‏ ذلك حين| 
قام الباحثان بتحليل الخطاب النقدي لوعاء الأخبار اعتمادًا على مدونةٍ لغوية من gG‏ 
العربية والجزيرة حول أخبار الحرب على غزة في عام 7015. وبلغ عدد كلمات المدونة التي 
تم تحليلها cials 51875١‏ موزعة على 1515 نصًا إخباريًا. وتمثل نصوص قناة العربية منها 
ما نسبته IY Y‏ أما نصوص قناة الجزيرة فتمثل ما نسبته 79 من حجم مدونة الدراسة. 
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وی Ge‏ خليلهاء ام oU‏ يفيل كمي فاتم عل eil‏ قوائم «sil aa s‏ 
والكلات المفتاحية لنصوص كل cili‏ مع المقارنة بينهماء وتمثيل كشافات النصوص» 
وتحليل المتلازمات اللغوية للكلمات الأكثر ترددّاء وللكلمات المفتاحية أيضًا. وأشارت 
نتائج الدراسة إلى وجود سماتٍ لغوية تتسم بها كل US‏ وتميزها عن الأخرى؛ تمثلت 
هذه السمات المميزة في نوعية الكلمات المستعملة في وصف الأحداث وصياغة الأخبار. 
إذ تميل قناة العربية إلى الرؤية الرسمية الدولية» مع انتقاء AUS‏ أكثر عمومية. على 
عكس قناة الجزيرة التي تميل إلى الوصف والسرد التفصيلي للوقائع وما يحيط مها من 
ملابساتء وانتقاء كلماتٍ تتضمن Ole‏ ثقافية وتاريخية ونقدية في سياق eio s‏ دقيق 
لتفاصيل الحرب على غزة. 

وني العام نفسه» قدم سلطان المجيول (Y‏ دراسة لخطاب الصحف العربية» والعمل على 
تحليل أنماط النسوية واللانسوية؛ أي الخطاب المناهض للأنثوية» وذلك المؤيد ها (الأصوات 
الإيجابية والأصوات السلبية الكمية وغيرهما). ويبدو أن المجيول el‏ بتطوير أو ربا إعادة نشر 
هذه الدراسة بالإنجليزية بعد ذلك بعام لتعميم الفائدة )2017 .CAlmujaiwel,‏ 

واستخدمت الدراسة الصحف العربية المتضمنة في المدونة اللغوية العربية لمدينة الملك 
عبدالعزيز للعلوم والتقنية King Abdulaziz City for Science and (KACST)‏ 
Technology Arabic Corpus‏ . وذلك بالاعتماد عل مناهج xU‏ وكونرو أبتو 5 Biber,‏ 
«Connor and Upton‏ المصطلح عليها ب «مناهج بي سي يو .«BCU approaches‏ 

وتطرقت الدراسة إلى تحليل الصورة الأولية للمنهجية المعتمدة على مناهج BCU‏ 
حول موضوعات التحليل: الزواج» والطلاق» والخلع» والحضانة» والعنف. والتعليم» 
والتمييز» والحجاب» LAG Jl s‏ والسفرء وولاية الرجل» وقيادة السيارة» ونزع ولاية 
الرجل. حيث جُمعت الأناط الخطابية للنسوية واللانسوية وفقا لكل موضوع مع 
الإشارة إلى حالات الآناط الخطابية دون سياقات الفاعلين فيهاء وخلفياتهم الثقافية» 
ونوعية ما يتمتعون به من سلطة اجتاعية. وأرجع المجيول السبب في عدم الخوض 
في نوعيات الفاعلين إلى أهمية كشف الحالات دون الفاعلين» والوقوف على الحالات 
دون التأثر أو التأثير بنوعيات الفاعلين. كما أن بعض الموضوعات قليلة التكشيف في 
مدونة الدراسةء نحو: قيادة السيارة» والوصي» والتحرش» ونزع ولاية الرجل متعلقةٌ 
بالمجتمع السعودي دون المجتمعات العربية الأخرى. 
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des‏ الرغم من وجود تكراراتٍ لبعض الموضوعات المحددة بمحمل النسوية 
تفوق عدد تكرارات الموضوع نفسه الذي حمل اللانسوية» وعلى الرغم من وجود 
العكس LÉT‏ لبعض الموضوعات» إلا أن المجمل في النتائج الضخمة بجمعها Ú‏ تشير 
إلى رجحان الإيجابية على السلبية بمعدلٍ بسيط. 


دراسات استخدام المدونات اللغوية العربية في استرجاع المعلومات 

نود قبل الخوض في استعراض هذه الدراسات أن نشير بادىء ذي بدءٍ إلى إمكانية 
التحقق من الإفادة من المدونات اللغوية في علم المعلومات بوجو عام ضمن USUS‏ 
تفصيلا في الفصل QUII‏ 

وربا تعود أول دراسة تستخدم مدونة لغوية عربية في شكل إلكتروني إلى عام ٩۱۹۹ء‏ 
ذلك حین| اعتمد الخراشى Evens 54!  Alkharashi‏ على مدونة لغوية قوامها Yoo‏ 
تسجيلةٌ ببليوجرافية عربيةٌ تغطي علوم الحاسب الآلي؛ لإجراء دراسة لتقييم نظام 
مايكرو-إيرس , CMicro- ATRS‏ وهو نظام لاسترجاع المعلومات العربية تم تصميمه 
كونه نظامًا تجريبيًا لدراسة عمليات التكشيف والاسترجاع للبيانات الببليوجرافية 
العربية. وفي تجربتها استعانا بستين استفسارًا صاغها مجموعة من الطلاب العرب 
المتخصصين في علوم الحاسب الآلي. 

وقد وجد الباحثان أنه من بين خسين استفسارًا هناك تسعة وعشرون استفسارًا ها وثيقة 
واحدةٌ أو أكثر صا حةٌ للإجابة عليها. وقد توصلت التجربة إلى أن استخدام جذور الكلمات 
العربية كونها مداخل كشفية يعطي نتائج أفضل من استخدام الكلمات في كامل شكلهاء 
وكذلك يعطي نتائج أفضل من الاسترجاع بالاعتماد على تجريد الكلمات .stemming‏ 

كما استخدم حميدي Hmeidi‏ (1940) في تجربته مدونة لغوية قوامها YEY‏ مستخلصًا 
Gye‏ بهدف المقارنة بين طرق التكشيف اليدوي وطرق التكشيف QI‏ باستخدام 
الجذوع والجذور والكلمات في كامل شكلها كونها مداخل كشفية. وني سبيل ذلك 
قام الباحث بحصر كافة الكلمات الواردة في كل وثيقةء ثم رتبت الكلمات تنازليًا وفقا 
لمدى تكرار ترددهاء بحيث تستخدم الكلمات التي وقع معدل تكرار ترددها وفقا لحل 
معن كونها مداخل كشفية. وفي الوقت نفسه صمم الباحث نظامًا OT‏ للتكشيف لتنفيذ 
تجربته» بحيث يمكنه اختبار عمليات التكشيف والاسترجاع على SG JE‏ العربية. 


-Y£A- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o ©2131‏ ^ 


وقد أوضحت النتائج على جدوى التكشيف الآلي» وأنه يعطي نتائج أفضل من 
التكشيف اليدوي عند استخدام الكلات» والجذوع» والجذور. كونها مداخل كشفية. 
كما كانت النتائج المسترجعة بالتكشيف الآلي الذي يستخدم العبارات أفضل من 
التكشيف اليدوي باستخدام الكلمات» والجذوع» والجذور. وكانت التتائج المسترجعة 
بالتكشيف الآلي الذي يستخدم الجذور كونها مداخل كشفية أفضل من استخدام 
الجذوع» وهي النتيجة نفسها التي أعطاها التكشيف اليدوي أيضًا. 

وفي عام ١‏ أصدر GASI‏ البيانات اللغوية Linguistic Data Consortium‏ 
(LDC) (Gey, Oard & Douglas, 2001)‏ مدونة الأخبار العربية Arabic‏ 
Newswire‏ وقد ضمت هذه المدونة ۷١‏ مليون هيكل كلمة token‏ و € کلمة 
فريدة type‏ من النصوص الإخبارية المنشورة بوكالة الأنباء الفرنسية AFP‏ للأخبار 
العربية بين عامي MAE‏ و Yers‏ وقد تم تشفير الوثائق بصيغة الشفرة الموحدة 
مہا وقد اعتمدت على هذه المدونة إحدى دراسات مؤتمر ترك à TREC‏ تقييم 
الاسترجاع في اللغة العربية» مُستخدمة في ذلك خمسة وعشرين استفسار بحث باللغة 
الإنجليزية» مع ترجماتها إلى العربية والفرنسية. ثم clo‏ من مجموعةٍ من المُحكمين» 
قوامها عشر مجموعاتٍ من مؤسسات مختلفة» إصدار قرارات الصلاحية على الوثائق 
المسترجعة بأحد خيارين؛ «نعم) أو «لا». وبعد توفير هذه المقومات الأساس للتقييم» 
تم تنفيذ أربع وعشرين عملية للاسترجاع JII‏ متعدد اللغات باستخدام الاستفسارات 
الإنجليزية» وثلاث عملياتٍ للاسترجاع JYI‏ متعدد اللغات باستخدام الاستفسارات 
الفرنسية» وتسع عشرة عملية للاسترجاع الآلي أحادي اللغة باستخدام الاستفسارات 
العربية» وعملية واحدة للاسترجاع اليدوي باستخدام الاستفسارات الإنجليزية» 
وعملية واحدةٍ للاسترجاع اليدوي باستخدام الاستفسارات العربية. وقد بلغ متوسط 
عدد الوثائق الصالحة المسترجعة ٠٠١‏ وثيقة للاستفسار الواحد. 

وفي عام ۱ أيضًا قام كريم درويش وزملاؤه (. (Darwish & et al‏ بإنشاء 
مدونةٍ لغوية أسموها زاد Zad‏ والتى قامت على توفيرها دار نشر الآريب Al-‏ 
.Areeb Electronic Publishers‏ و X‏ احتوت هذه المدونة على أربعة آلاف وثيقةٍ 
مستخلصة من كتابات ابن القيم في القرن الثالث عشر» وتغطي فروع التاريخ» والفقه» 
والروحانيات» والسلوكيات. واستخدم الباحثون Yo‏ استفسارًا باللغة العربية للحكم 
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على صلاحية نصوص مدونة زاد» مع ترجمتها إلى اللغة الإنجليزية؛ وذلك بهدف معالحة 
المصطلحات الكشفية العربية» والتحقق من الخصائص الصرفية المستخدمة في بحث 
الإنتاج الذكري العربي» والنقحرة باستخدام حروفٍ إنجليزية. وقد أظهرت النتائج 
نجاح تقنية تقنية الترجمة المستخدّمة؛» كما تبين أن البحث في النصوص العربية باستخدام 
الجذور يعطي نتائج أفضل على المستوى أحادي اللغة. 

وخلال الدورة الخامسة والعشرين EA‏ مجموعة الاهتمام الخاص باسترجاع 
المعلومات Special Interest Group on Information Retrieval (SIGIR)‏ 
اعتمدت إحدى الدراسات )2002 (Xu, Fraser & Weischedel,‏ على المدونة 
TRATEN‏ ل الأنباء الفرنسية AFP ARAB‏ لمعالجة اللغة الطبيعية من 
خلال تقييم oem‏ بعض استراتيجيات البحث المستخدمة في الاسترجاع أحادي اللغة 
والاسترجاع متعدد اللغات في اللغة العربية. حيث قامت الدراسة باختبار تأثير تقنين 
اھجاء spelling normalization‏ وتجريد الكلمات stemming‏ على Je‏ جاع 
متعدد اللغات» استخدمت فيه استفسارات إنجليزية لاسترجاع الوثائق العربية. وقد 
أوضحت الدراسة أن هناك بعض الاختلافات في الإملاء العربي» فحرف الياء قد 
لا يُنقط بدلا من تسميته UE‏ مقصورة في نباية الكثير من الكليات. ولذا استخدمت 
الدراسة برنا تجا الكلمات يدعى جرد Buckwalter stemmer Pure‏ لتقنين 
الهجاء عن طريق تصحيح نهايات الكلمات. في تغلبت الدراسة على مشكلة الأشكال 
a dac qo vp dum‏ 
(D‏ کا اعتمدت الدراسة على E‏ بكوالتر لرصد كافة الصدور (السوابق) والكواسع 
(اللواحق) والجذوع واحتمالات تكونها. 

وقد توصلت نتائج هذه الدراسة إلى أن تة تقنين الحجاء وتجريد الكلمات من الممكن أن 
تنا الاسترجاع في اللغة العربية على المستوى أحادي اللغةء بينم| كان تأثيرهما ضعيمًا في 
الاسترجاع متعدد اللغات. GS‏ أن تجريد الكلماتء الذي تم على المدونة اللغوية لوكالة 
الأنباء الفرنسية موضوع الاختبار» ل بحسن من كفاءة الاسترجاع بالقدر المأمول. 
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دراسات الإفادة من المدونات اللغوية في صناعة المكانز 

تعد دراسة الثبيتي C)‏ من أوائل الدراسات التي اهتمت باستخراج 
المصطلحات من النصوص Bel‏ على المدونات اللغوية العربية. حيث اقترحت 
الدراسة طريقة إحصائية بسيطة لاستخلاص المصطلحات المتخصصة المكوّنة من كلمة 
واحدة اعتمادًا على المدونات اللغوية. وتعتمد هذه الطريقة على حساب «معامل الغرابة») 
الذي قيس مدى ابتعاد استخدام الكلمة المفردة في إحدى المدونات اللغوية المتخصصة 
في أحد المجالات» عنها في مدونة لغوية أخرى في أحد المجالات العامة» أو تستخدم 
اللغة اليومية. وتمثلت المدونة المتخصصة في هذه الدراسة في نصوص في مجال الذكاء 
الصناعي» ونصوصس في مجال الفيزياء. وكان قوام هذه المدونة اللغوية 178٠‏ هيكل 
كلمة. بين تمثلت المدونة اللغوية الأخرى التي تستخدم اللغة اليومية في نصوص تم 
جمعها من الإنترنت من مواقع سعودية (مواقع صحفيء ومجلاتٍ» وكتب» ومطويات» 
ومواقع شخصية). وكان قوام هذه المدونة ٠١099‏ هيكل كلمة. 

وتم تقييم النتائج المسترجعة بواسطة متخصصين في المجالاات التي كانت mm‏ 
الاهتمام والدراسة؛ وهي الذكاء الصناعيء والفيزياء. وأظهرت نتائج الدراسة أن 
الطريقة المقترحة تقدم مؤشراتٍ مشجعة في المجالات التي تمت دراستها. 

وبعد دراسة الثبيتى بحوالي dl‏ عشر Gle‏ قدمت زايديء وزملاؤها QW)‏ 
poil caa ik sel als‏ المصطلحات من النصوص Bel‏ على المدونات 
اللغوية العربية. إذ هدفت هذه الدراسة إلى اقتراح S‏ لاستخراج المصطلحات من 
المدونات اللغوية العربية؛ من خلال تقسيم المصطلحات إلى مصطلحاتٍ بسيطةٍ (كلمة 
(Gal‏ ومصطلحاتٍ مركبةٍ على شكل متلازماتٍ لغوية (كلمتين أو أكثر). كا 
تضمن الاقتراح مقاربة إحصائية للحصول على المصطلحات البسيطة» ومقاربة لسانية 
لاستخراج المصطلحات المركبة» والتي تخضع للناذج التالية: 

pe E 

B‏ اسم-صفة. 

cde .۴ 
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حيث قام الباحثون الأربعة بداية بتجريب هذه الطريقة على مدونة الهلال للقرآن 
الكريم؛ بغرض استخراج المصطلحات» ومن ثم بناء أنطولوجيا بهذه المصطلحات» 
بحيث يمكن استثار هذه الأنطولوجيا في أي Jue‏ آخر » وتوظيفها في تطبيقاتٍ ختلفةء 
مثل: الترجمة الآلية» والتكشيف الآلي» وتحسين كفاءة البحث على الشبكة العنكبوتية 
وقد استخدم الباحثون لتحقيق هدف الدراسة أداة تسمى «جيت (Gate‏ للتحقق من 
المتلازمات اللغوية في نصوص القرآن الكريم. 

وفي عام 45 اقترح ربحي بركة ومنار فياض (Baraka & Fayyad)‏ طريقة دآ 
E‏ 
EEE E‏ 
المصطلحات وإيعازها إلى مجالهاء مستخدمين مدونة لغوية عربية مقسمة إلى عشرة 
مجالاتِ؛ وهي المدونة اللغوية أوساك OSAC‏ التي تحوي نصوص الأخبار العربية 
المنشورة بموقعي سي إن إن CNN‏ و بي بي سي 880. واعتمدت طريقة المعالجة على 
التجريد الخفيف للكلات light stemming‏ ومن ثم إمكانية استخراج المصطلحات 
المرشحة للتضمين. ثم تم تقييم هذه المصطلحات المرشحة وفقا لوزنها؛ بحيث يتم 
قبول المصطلحات ذات الوزن الأكبرء لتتكون في النهاية مصفوفة بالمصطلحات. 
ولاختبار كفاءة الطريقة المقترحة استخدم الباحثان هذه المصفوفة في تكشيف بعض 
الوثائق للتأكد من ارتباط هذه الوثائق بالمصطلحات المكشفة. وأوضحت النتائج نجاح 
الطريقة المقترحة بنسبة تحقيق تجازوت Ar‏ 

وفي العام نفسه» قدم الثبيتي وزملاؤه )2014 (Al-Thubaity & et al,‏ دراسة 
اقترحوا من خلاها طريقتين لاستخراج المصطلحات المكونة من كلمةٍ واحدة» وتلك 
المكوّنة من ثلاثة مصطلحاتٍ. وتعتمد الطريقة الأولى على حقيقة أن الكلمات التي 
CTETUR EST MO‏ 
أن تزداد احتمالية الاعتداد بها بصفتها مصطلحات تعبر عن هذا المجال. بحيث يمكن 
اعتبار المفردات المكوّنة من كلمةٍ واحدة» وتلك المكوّنة من كلمتين» وهذه المكوّنة من 
ثلاث كلماتٍ - مصطلحات دالة على المجال. 

بينا تعتمد الطريقة الثانية على حقيقة أن المصطلحات الدالة على تخصص معينء 
سواءٌ المكوّنة من كلمة واحدةٍ أو تلك المركبة» ترتبط فيا بينها ببعض فئات الكلمات 
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eus o I‏ كحروف الجر والمحددات» وأدوات العطف» وعلامات الإملاء (علامات 
الترقيم» والأعداد» والعملات» وغيرها من الرموز). 

ولتحقيق هدف الدراسة استعان الثبيتي وزملاؤه بمدونةٍ لغوية لنصوص علم اللغة 
التطبيقي. وأوضحت النتائج أن الطريقتين المقترحتين لاستخراج المصطلحات من 
المدونات اللغوية صالحتان للتطبيق على المجالات الأخرى. الأمر الذي يفيد كثيرًا في 
بناء المعاجم والمكانز المتخصصة. 


دراسات استخدام coU all‏ اللغوية في المكتبات 

من الدراسات الرائدة في مجال المكتبات والمعلومات حول استخدام المدونات 
اللغوية في تكشيف الوثائق» تلك الدراسة التي قام بها الباحث التايواني تشن Chen‏ 
() بهدف التحقق من موضوعات الوثائق. حيث اقترح الباحث نموذجًا لمساعدة 
المستفيدين على استرجاع الوثائق على نحو أكثر فعالية. وقد اعتمد هذا النموذج على 
أربعة معايبر رئيسة» هى: أهمية الكلمات» وتردد cS)‏ والمصاحبة بين الكلمات» 
والمسافة بين الكلمات. وقد o‏ هذا النموذج على de pa‏ من النصوص الصينية 
المتاحة من خلال مدونة سينيكا Sinica Corpus‏ المكونة من 5 مليون كلمة صينية 
annotated es‏ و .tagged‏ وإضافة إلى ذلك ob‏ كل نص داخل المدونة 
اللغوية تمت فهرسته في ضوء خمسة حقولٍ للوصف» هي: النوع "Y‏ والأسلوب» 
والحالة» والموضوع» والمصدر. وقد انصب الجانب العمل في الدراسة على قياس أداء 
النموذج المقترح مقارنة بأداء المستفيدين. وتوصلت الدراسة إلى أن النموذج المقترح في 
تحليل المدونة اللغوية يوفر وقت وجهد المكتبات في تكشيف الوثائق. 

وني عام Yen‏ أجرى باحث من الجامعة العبرية (Drori)‏ دراسة حول التحقق من 
موضوعات الوثائق المتاحة من خلال المكتبات الرقمية بالاعتاد على مدونةٍ لغوية قوامها 
٠‏ مقالةٍ علمية بنصوصها الكاملة في موضوعين رئيسين؛ هما: الجغرافياء ودراسات 
الأسرة. واستخدمت الدراسة برنامج TextAnalysis‏ في تحليلها للمدونة اللغوية. ويقوم 
هذا البرنامج بتحليل النصوص وفقا لتكرار ترددهاء ومن ثم يمكن للمستفيدين التحقق 
من موضوعات هذه النصوص. وقد أوضحت النتائج أن هذا البرنامج يعمل بكفاءةٍ 
ودقةٍ عاليتين في المساعدة في تحديد الكلمات المفتاحية لمحتويات المكتبات الرقمية. الأمر 
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الذي من شأنه أن يدعم عمل المسؤولين عن خدمات البحث با مكتبات الرقمية في تعيين 
الكلمات المفتاحية للمواد التى تقتنيها بطريقة aJi‏ عالية الكفاءة. 

رمو اتشازير الزائدة كد ناك حول أو dall‏ من csl (às AE co gall‏ 
ذلك التقرير الفني )2003 (MacMullen,‏ الذي نشرته مدرسة المعلومات وعلم 
المكتبات بجامعة نورث كارو UV‏ بشابل هيل University of North Caroline at‏ 
Chapel Hill‏ في مارس عام ۳ حول متطلبات التعريف بالمدونات اللغوية ومعايير 
تصميمها من أجل تيسير سبل البحث في هذا المجال الناشىء في تخصص المكتبات. 
وكان من بين أهداف هذا التقرير إبراز أهمية المدونات اللغوية في التحقق من مدى 
صلاحية» ودقة» وفعالية أدوات البحث» والنظم الآلية للاسترجاع. وقد بدأ التقرير 
بتناول استخدامات المدونات اللغوية ومدى الاحتياج إليها في المكتبات. ثم ساق 
التقرير أمثلة لاستثار المدونات اللغوية في عددٍ من المجالات؛ كعلم المعلومات» 
والمعلوماتية الحيوية» واللسانيات» والعلاقات البينية oib‏ المجالات» والبرمجيات 
المستخدّمة. ثم أوضح التقرير الأسس العلمية لتصميم المدونات اللغوية» وهي: التمثيل 
985 وتحديد واختيار العينة والإحصاء «sampling‏ و الاستنساخ» 
واكتشاف «sas I‏ والتقنين normalization‏ ثم قدم التقرير مجموعة من المعايير التي 
يتعين الالتزام بها عند تصميم المدونات اللغوية بوجو عام. ثم اختتم التقرير عرضه 
بالتأكيد على أهمية وجدوى المدونات اللغوية في المكتبات» سواءٌ للنهوض بدراساتٍ 
وأبحاث في المجال» أو باستثارها في العمليات الفنية» من تكشيفيء واستخلاص» 
وتحليلٍ mE obere‏ 

كما قدم الباحث السلوفيني "كانك" Kanič‏ )2013( ورقة بحثية خلال المؤتمر العلمي 
الدولي للمدونات اللغوية اقترح فيها مشروعا لبناء أداةٍ لتنظيم وتقنين مصطلحات 
المكتبات المتاحة باللغة السلوفينية اعتمادًا على اختزان وتقييم استخدام النصوص 
العلمية والفنية في المجال. وني هذا السياق قام الباحث ببناء مدونةٍ لغوية تيسر عمل 
موفوضية مصطلحات المكتبات The Commission on Library Terminology‏ 
وفقا للإطار الذي أقرته جمعية المكتبات السلوفينية. وتكونت هذه المدونة اللغوية من 
IDEE‏ مستخلص شكلت نحو نصف مليون كلمةٍ من النصوص المنشورة قبل عام 
9 »؛ ما بين رسائل ماجستبر» وأطروحات دکتوراه» ومنفردات» ومقالات دوريات. 
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وقد بلغ إجمالي ما تم جمعه في هذه المدونة SRI‏ الأمر الذي من شأنه أن يرفع من 
أداء اختصاصيي المكتبات» وطلاب المكتبات وعلم المعلومات» إضافة إلى المعجميين. 
وقد استخدم الباحث برنامج نيفا NEVA‏ في تحليل المدونة اللغوية. 

وخلال ورشة العمل الدولية الأولى للمكتبات الرقمية في علم الموسيقى First‏ 
International Digital Libraries for Musicology Workshop‏ في عام CY‏ 
قام باحثان من مدرسة المكتبات وعلم المعلومات بجامعة إلينوي بإربانا شامبين 
«University of Illinois at Urbana-Champaign‏ وصاحبھ) في ذلك باحث 
آخر من مكتبة الجامعة )2014 (Downie; Dougan & Bhattacharyya,‏ بدراسة 
ببليومترية لمجموعات مكتبة Us‏ | تراست HathiTrust Digital Library & 3 JI‏ 
(HTDL)‏ شدلت توزيعات iS‏ بالمشاهمين eto alb‏ .هذه المكنبة»:وبلغات 
المجموعات المقتناه بالمكتبة» وبالموضوعات ورؤوس الموضوعات التي تغطيها هذه 
اللجموعات» وبتواريخ نشرهاء والأنواع الأدبية لها. وفي القسم الأخير من الدراسة 
ا DUX‏ كيو لك بر cur one‏ كوي لجان 
المواد المكتوبة المتاحة» وعلى النحو الذي يمّكن من البحث في التضوص ULE‏ 
وبذلك استطاع الباحثون التحقق من الكلات المفتاحية لكل dae‏ ومن ثم الاستفادة 
منها في صياغة رؤوس الموضوعات المناسبة. وفي النهاية أكد الباحثون على جدوى 
تضمين تكشيف الكلات المفتاحية القائم على مدونةٍ لغوية A‏ في تيسير استرجاع مقتنيات 
المكتبات. 

وإجمالًا ما سبق» وبال رجوع إلى مجالات الإفادة من المدونات اللغوية في الفصل الثاني 
من هذا الكتاب» فإننا نلاحظ أنه لا تزال هناك مجالاتٌ عدةٌ لم تستثمر فيها المدونات 
اللغوية العربية بعد. كا هو JH‏ في مجالات صناعة المكانز» والمعلوماتية الحيوية» 
والمعلوماتية الجنائية. 

ونلاحظ أيضًا أن الدراسات التى تناولت المدونات اللغوية في البيئة العربية 
جاءت معظمها على يد باحثين عرب لكن باللغة الإنجليزية. وقد اقتصرت معظم 
هذه الدراسات على كيفية استثار المدونات اللغوية في اختبار وتقييم نظم استرجاع 
المعلومات ومعالحة اللغة العربية. 
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الخلاصة 

انصب هذا الفصل على الإنتاج الفكري الذي تناول المدونات اللغوية؛ سواءٌ من 
حيث الإنشاء والتصميم والإتاحة» أو من حيث الاستخدام المنهجي. وكان الهدف 
من ذلك تقديم مراجعةٍ علميةٍ انتقائبة هذا الإنتاج حول الموضوع» مع التركيز على 
الإسهامات العربية قدر الإمكان. وفي هذا السياق تم تناول تلك الدراسات المهتمة 
بإنشاء وإتاحة المدونات اللغوية العربية» ودراسات الإفادة منها في علم اللغة التطبيقي 
(النحو والدلالة» وعلم اللغة الاجتماعي» وصناعة المعاجم» والترجمة» وتحليل 
التوجهات الفكرية)» ودراسات الاستخدام à‏ استرجاع المعلومات» وبناء المكانز» 
ودراسات استثارها في المكتبات. 
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أولا: المراجع العربية 

ابن منظورء جمال الدين أبو الفضل محمد بن مكرم. (۱۹۹۳). مادة (ذخر). في: لسان 
العرب (مج (é‏ بيروت: دار صادر. استرجع http://shamela.ws/browse.,»‏ 
php/book-16877page-2262‏ 

بوشحدان» الشريف. )9 Y Y‏ الأستاذ عبد الرحمن الحاج صالح وجهوده العلمية في 
ترقية استعمال اللغة العربية. جلة كلية colo YI‏ والعلوم الإنسانية والاجتاعية» V‏ 
-30. 

الثبيتي» عبد المحسن. (Y * * V)‏ استخدام ذخائر النصوص لاستخلاص المصطلحات 
ا متخصصة. الندوة الدولية الأول عن ا حاسب واللغة والعربية. مدينة ا ملك 
عبدالعزيز للعلوم والتقنية. الرياض. المملكة العربية السعودية. 

ال ace‏ العم (Y VO‏ اا ا AE GLAS cà xD coU aa‏ 
o aa‏ کاب لغؤياض الشواة fe lel colis hs 1 paul d‏ العريةاطسة: 
تحرير سلطان المجيول. الرياض: مركز الملك عبد الله بن عبد العزيز الدولي لخدمة 
الاك الخرية. 

حمادة» سلوى. ..٠ Y‏ نحو منهج عربي مقترح لتصميم المدونات اللغوية. 
استر جع من http://www.globalarabnetwork.com/science-a-‏ 
1t/2784-2011-04-04-14-49-07‏ 

الربيعة» مها سليمان؛ السلان» عبد الملك سلمان & آتويل» إيريك. الذخيرة اللغوية 
الفصحى حجر الأساس لدراسة معاني كلمات القرآن الكريم: في ضوء ناذج 
الدلالة المتو زعة. استرجع من http://ksucorpus.ksu.edu.sa/wp-content/‏ 
1 لذ خيرة-اللغوية-الفصحى - حجر -الأساس -لدراسة- 
معاني-كلمات- القرآن-الكريم pdf.‏ 

زايدي» صورية؛ عبد العالي» أحمد؛ العسكري» محمد الطيب & الشنيفي» محمد عبد الله. 
a clonal d (QUY)‏ را بن الو Je dedi all‏ 
النص القرآني الكريم. 41 Communications of the Arab Computer Society:‏ 
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الشامی» أحمد محمد & حسب الله سيد. (Y * V£)‏ مصطلحات المكتبات والمعلومات 
P‏ شيف. استر جع http://www.elshami.com ja‏ 

الشمري» عقيل بن حامد & المحمود» محمود بن عبد الله. (Y * V‏ المعالجة الآلية 
لوعاء الأخبار: تحليل الخطاب النقدي المعتمد على المدونة الحاسوبية. في كتاب: 
لغويات ا مدونات ا حاسوبية: تطبيقات نحليلية على العربية الطبيعية» الرياض: 
مركز الملك عبد الله بن عبد العزيز الدولي لخدمة اللغة العربية» 517-١94‏ 5. 

الصوينع» علي سليمان. (يوليو (IAY‏ كشافات النصوص وتطبيقاتها في نصوص 
الق of‏ والحديث. ile‏ مكتبات وا معلومات العربية. ۳(۷). 07-60. 

عبد العالي» أحمد عبد الله. 48700 LO‏ الببليوجرافيا والتكشيف في المكتبات. (سلسلة 
تبسيط علوم المكتبات» 4). الكويت: وزارة التربية» إدارة المكتبات. ۲۷ ص. 

عبد الهادي» محمد فتحي. (AY)‏ التكشيف لأغراض استرجاع المعلومات. جدة: 
مكتبة العلم. Y‏ ص. 

(Y 4A £).‏ مقدمة في علم المعلومات. القاهرة: دار غريب. 7١١‏ ص. 

عبد الهادي» محمد فتحي & el)‏ يسرية عبد الحليم. CASE (Yr)‏ 
والاستخلاص: المفاهيم» الأساس» التطبيقات. القاهرة: الدار المصرية اللبنانية. 
ie TEE‏ 

العتيق» زايد بن مهلهل. LO Y)‏ تحليل الأخطاء الدلالية لدى دارسى اللغة العربية 
فن غير الناطقين ها penc iaa‏ الاي )) etra Ala‏ غير متشو Reale GG‏ 
الإمام محمد بن سعود الإسلامية. 

عرفات» كمال نبهان. )8 * (Y‏ تكشيف نصوص التراث العربي. القاهرة: مكتبة الإمام 
البخاري للنشر والتوزيع. YOT‏ ص. 

العصيلي» عبد العزيز بن إبراهيم. (Y A0)‏ الأخطاء الشائعة في الكلام لدى طلاب 
اللغة العربية الناطقين بلغات أخرى (رسالة ماجستير غير منشورة). جامعة الإمام 
محمد بن سعود الإسلامية. 
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عمر» ael‏ مختار. OY AAA)‏ البحث اللغوي عند العرب: مع دراسة لقضية التأثير 
والتأثر. القاهرة: de‏ الكتب. ۳۸۳ ص. 

عمرء أحمد مختار. (Y * A)‏ معجم اللغة العربية المعاصرة. ط .١‏ القاهرة: عالم الكتب. 
ue YYM‏ 

العنزي» بدرية. )0 1 (Y‏ نحو بناء معجم للمتلازمات اللفظية في المعاجم العربية 
المعاصرة: دراسة تحليلية في ضوء مدونة لغوية. رسالة دكتوراه. جامعة الإمام 
محمد بن سعود الإسلامية. 

غزالة» حسن. LY V)‏ قاموس دار العلم للمتلازمات اللفظية: قاموس شامل 
إنجليزي-عربي لمعاني الألفاظ وتواردها ودقة استعالها. بيروت: دار العلم 
للملايين. ۱٥۲۷‏ ص. 

قاسم» حشمت. (Yr)‏ مدخل لدراسة التكشيف والاستخلاص. القاهرة: دار 
غريب. ۲۰۰ ص. 

القاموس المتعدد اللغات على الإنترنت „Glosbe‏ استرجع من /https://ar.glosbe.com‏ 

قراني = .Qurany‏ استر جع من http://quranytopics.appspot.com‏ 

Ú pulo إشكاليات تهيئة الذخائر النصية وبنائها‎ (Y 4) هشام موسى.‎ «SUI 
http:// اللغتان العربية والصينية نموذجًا. مجلة علوم اللغة. 55. استرجع من‎ 
www.afaaq-edu.com/photo gallery/5-corpus?oe20building9620 
-%20a%20wen.pdf 

المجيول» سلطان. .)5١١5(‏ مناهج التهيئة المعجمية في تعليم العربية لغير الناطقين 
بها. ا مؤتمر الدولي الثاني في الاتجاهات ا حديثة في تعليم العربية لغة ثانية. الرياض: 
د اللغريات الغرية جاع للك سةد 

201 المعالجحة الآلية للصحف العربية: تحليل DEYI‏ 

ا لخطابية بمناهج BCU‏ في كتاب: لغويات ا مدونات ا حاسوبية: تطبيقات نحليلية 
على العربية الطبيعية. الرياض: مركز الملك عبد الله بن عبد العزيز الدولي لخدمة 
اللكةالعريق BE Y‏ 

المدونة اللغوية العربية العالمية لمكتبة الإسكندرية — International Corpus of‏ 
Arabic‏ . استر جع من http://www.bibalex.org/ica/ar‏ 
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ميدار: المشروع المتوسطي لتقنيات اللغات العربية المكتوبة والمنطوقة (مشروع من 
سلسلة مشروعات نملار). استر جع من http///www.medar.info/Breif‏ 
Arabic/MEDAR Arabic -brief-June2009.pdf‏ 
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معجم المصطلحات 
(A)‏ اللات ohb‏ الحروف Clitic words‏ 
أداة استدراك àLazl| —Adversative‏ 
الإحالة اللغوية القبلية 7 Clusteranalysis  تاعمجتلا Jıã‏ 
تحشية Anaphoric annotation‏ العنقودية 
العلاقات الإضارية تحليل التجمعات العنقوية Clustering‏ 
المدونات Annotated Corpora‏ التجمعات العنقودية Clusters‏ 
اللغوية aadi‏ التلازم المعجمي النحوي Colligation‏ 
التحشية Annotation‏ المتلازمات اللغرية/ Collocates‏ 
الكلمة المذكورة قبلا Antecedent‏ لمتصاحبات اللغوية 
النصوص الواقعية/ Authentic texts‏ التلازم اللغوي Collocation‏ 
الفعلية السلوك Collocational behavior‏ 
(B)‏ التلازمي 
التوازن Combinations of words wle ¿e Balance‏ 


المدونات 
الل 
o pi‏ ر 

تقويس الكللمات/ وضع Bracketing‏ 


Bidirectional corpora 


Bioinformatics 


الكلمات بين أقواس 

(C) 
Cataphor الإحالة اللغوية البّعدية‎ 
Chi-Squaretest اختبار مربع كاي‎ 


Chunks 


مقاطع 


من الكلات 


الشمولية Comprehensiveness‏ 
كشاف النصوص Concordance‏ 
برمجيات تكشيف Concordancers‏ 

النصوص 
تكشيف النصوصض Concordancing‏ 
مكونات الحملة Constituents‏ 
كلات المحتوى Content words‏ 
النصوص الضابطة Control texts‏ 
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تحشية Coreference annotation‏ 
المصاحبة المرجعية 
المدونات اللغوية Corpora‏ 


Corpus Encoding Standard (CES) 
معيار تشفير المدونات اللغوية‎ 

لسانيات 
المذونات à, adl‏ 
مدونة المدونات 
EU‏ 

à; AUI الوا‎ 


Corpus Linguistics 


Corpus of corpora 


Corpus 
(D) 
Delimit words «3 H الكلمات ذات‎ 


Data mining 


Descriptive lexicons 


اللقوية WF‏ 
معامل ارتباط دايس Dice Coefficient‏ 


Diachronic Corpora 


Disambiguation tagging إزالة اللبس‎ 


عن الكلام 
تحليل الخطاب Discourse analysis‏ 
لغة الخطاب Discourse‏ 


(E) 
Corpora المدونات‎ 
اللغوية التعليمية‎ 
Egyptian Colloquial العامية المصرية‎ 
التحشية‎ 
المتضمنة‎ 
الكلمات المفرغة‎ 
وسم الأخطاء‎ 


Educational 


Embedded annotation 


Empty words 
Error tagging 


(F) 


Forensic [Informatics 


المعلوماقية 
الجنائية 

الكلمات الوظيفية Functional words‏ 
الأدو ات الدالة على Future particles‏ 


المستقبل 


(G) 
General Corpora المدونات اللغوية‎ 
العامة‎ 
Genome e x 
Genre النوع الأدبي‎ 
Grammatical tagging الو سم‎ 


القواعدي 
الكليات النحوية Grammatical words‏ 
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(H) 
Hapaxes الكلمات التى تتکرر مرة‎ 
و احدة فقط'‎ 
Historic Corpora  ةيوغللا المدونات‎ 
التاريخية‎ 
Hypertexts النصوص الفائقة‎ 
(D 
Idiomatic expressions œl yl 
i-o YI 
Information extraction c استخر‎ 
المعلومات‎ 
Invented texts xxiii النصوص‎ 
(K) 
Keyness المفتاحية‎ 


تشتت الكليات Keyword dispersion‏ 
المفتاحية 

KeyWord In Context (KWIC) 
تكشيف الكلمات المفتاحية في السياق‎ 


Keywords generation 


Knowledge Discovery in 
Databases (KDD) 
الكشف عن المعرفة في قواعد البيانات‎ 


(L) 
Language variation التنوع اللغري‎ 
Latent semantic indexing 
التكشيف الدلالي الكامن‎ 


Learner Corpora مدونات الدارسين‎ 


(للغات) 
Pe‏ ة اللغوية Lemma‏ 
تجريد الكليمات/ رد Lemmatization‏ 


وو 
الكلمات إلى 21 b‏ اللغوية 
تعبئة الفجوة 
المعجمية 


التهيئة المعجمية 
الكلات المعجمية 


Lexical gap-filling 


Lexical priming 
Lexical words 

Lexico-grammatical pattern 

التركيب المعجمي النحوي 

Lexis and grammar المفردات والنحو‎ 

التجريد الخفيف 

للكلمات 
Likelihood Ration Functions‏ 

اختبار دوال الاحتالاات 

الكلات الدخيلة 

ill cg p 


Light stemming 


Loan words 
Localization 


(M) 


Machine-readable 
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Marked-up Corpora المدونات‎ 
FEEN 

الترميز Marking-up‏ 
ماوراء المدونات Meta Corpora‏ 
اللغوية 

الميتاداتا/ ما وراء البيانات Metadata‏ 


Modern Standard Arabic (MSA) 
العريية الا ا ده‎ 
المدونات اللغوية‎ 
الراصدة‎ 
أحادي اللغة‎ 
التحشية‎ 
الصرفية‎ 
Morpho-syntactic tagging 
الو سم الصرفي النحوي‎ 
Mutual Information Coefficient 


معامل المعلومات المتبادلة 


Monitor Corpora 


Monolingual 


Morphology annotation 


(N) 

التجميع Nesting‏ 
تحليل المتتابعات اللفظية n-grams‏ 
)0( 

Ontology الأنطولوجيا‎ 


Optical Character Reader (OCR) 
قارىء المحارف البصرية‎ 


(P) 

المدونات اللغوية — Parallel corpora‏ 
المتوازية 
التخليل الإعراي 

Part-Of-Speech (POS) tagging 
وسم أقسام الكلمات‎ 
التركيب‎ 
اللغوي والمعنى‎ 
النحو النمطي‎ 
القالب اللغوي‎ 
Pedagogical Corpora المدونات‎ 
اللغوية التربوية/ التدريسية‎ 
الألفباء الصوتية‎ 
Phrase structure trees أشجار تركيب‎ 
العبارة‎ 
العباري‎ nm 
للكلمات‎ 
Plagiarism انتحال المعلومات العلمية‎ 
الشكل البسيط‎ 
للنصوص‎ 
Postcedent الكلمة المذكورة بعد ذلك‎ 
Pragmatic annotation التحشية‎ 
البراجماتية أو التداولية‎ 
السوابق‎ 


Parsing 


Pattern and meaning 


Pattern grammar 


Pattern 


Phonetic alphabet 


Phraseology 


Plain text format 


Prefixes 
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Prescriptive lexicons المعاجم‎ 
الإرشادية‎ 

Problem-oriented annotation 
التحشية الموجهة نحو المشكلاات‎ 
الخصائص‎ 
العروضية‎ 


Prosodic features 


(R) 
الأساس المنطقي‎ 
Raw Corpora المدونات اللغوية الخام‎ 
المدونة اللخرية‎ 
المرجعية‎ 


Rationale 


Reference corpus 


الخال إليه Referent‏ 
السجل اللغوي Register‏ 
التمثيل Representativeness‏ 


Research Corpora المدونات اللغوية‎ 


البحثية 

Research specific annotation التحشية‎ 

تحددة البحث 

Root jM 
(S) 

أخذ العينة Sampling‏ 

المسح الضو ئي Scanning‏ 


Semantic annotation التحشية الدلالية‎ 


التحليل الإعرابي Semantic parsing‏ 
الدلالى 


العروض الدلالي Semantic prosody‏ 
XU 2221 a‏ 
علم اللغة الاجتماعي Sociolinguistics‏ 
الأفعال الكلامية 
تحو يل الكلام إلى نصوص Speech-to-text‏ 
تقنين الهجاء Spelling normalization.‏ 


SGML 


Speech acts 


التحشية Stand-alone annotation‏ 
القائمة بذاتها 

الجذع Stem‏ 
as 2‏ الكلمات/ رد Stemming‏ 
الكلمات إلى جذوعها 

الكلمات المستثناة Stop words‏ 
الأسلوبية Stylistics‏ 
اللواحق Suffixes‏ 
النصوص المشكوك Suspected texts‏ 
فيها 

Syntactic analysis التحليل التر كيبي‎ 
Syntactic restrictions المقيدات‎ 


النحوية 

(T) 
Tagging الو سم‎ 
Term Extraction استخر اج الكليات‎ 
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Test collection مجموعة الاختبار‎ 
Test Corpora المدونات اللغوية‎ 

الاختبارية 
جموعة Test suits /collection‏ 


الاختبار 
Text Encoding Initiative (TED)‏ 
مبادرة تشفير النصوص 


المكنز Thesaurus‏ 
هيكل الكلمة Token‏ 
تجزيء النصوص إلى Tokenization‏ 

هياكل من الكلمات 
نسخ النصوص Transcripting‏ 
بنوك اشجار النصوص Treebanks‏ 
بتر الكلمات Truncation‏ 
الكلمات الفريدة Types‏ 

(U) 

نظام الشفرة الموحدة Unicode‏ 
المدونات Unidirectional corpora‏ 


اللغوية أحادية الاتجاه 


(V) 
Variety النوع اللغوي‎ 
(OW) 
Weirdness Coefficient معامل الغرابة‎ 
SII تكشيف‎ 
قائمة الكلمات‎ 
Word listing في قوائم‎ cus وضع‎ 
Word sense tagging الكلمات‎ jus وسم‎ 


Word indexing 
Word List 


Words meanings and uses معان‎ 
واستخدامات الكلات‎ 


Written data البيانات المكتوبة‎ 


(X) 


لغة الترميز القابلة للتمديد XML‏ 


(Z) 


Zipf’s Law قانون زيف‎ 


SAN 
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usi 


الأب روبرتو بوسا Je‏ دين مسيحي) 
Y4‏ 1 


ابن القيم الجوزية VES OYY‏ 

الأجرومية -لغة عربيةٌ ٠١5‏ 

الأحاديث النبوية» تجميع نصوص * Y‏ 

احتمالات سجل الأداء = إحصاءٌ 2١7١‏ 
۲٤‏ 

المكتبات» اختصاصيو ٠١١‏ 

اختيار العينة - مناهج علميةٌ ٠١٤ YY‏ 

الأخطاء الشائعة» معاجم 5 ٠١‏ 

الأخطاء اللغوية» تحليل 5 ٠١‏ 

الأخطاء اللغوية» وسم £03 VV‏ 

Y GJ ČL) آدم كيلجاريف‎ 
۲ 

٠١١ Gs) أدوات الاستدراك‎ 

أدوات البحث ۲۷ ٠١٤‏ 

الأدوات التكميلية (كلماتّ) ٠٤١ MY‏ 

٠۳۷ ov GU) أدوات الربط‎ 

أدوات معالحة المدونات اللغوية العربية» 
برنامج ۰۱۲۳۰۱۲۰ ۱۲۵ 

أنظر أيضًا: راص 


^ 


gels 
١ 57“ آرالات (قاعدة بيانات علاقية)‎ 


الآريب» دار نشر ١59‏ 

vallis‏ دا ل 

استخراج المصطلحات ٠٠١١١١١٤‏ 

استخراج المعلومات 1۸٤۹‏ 

استخراج النصوص ٠١١‏ 

استراتيجيات البحث ١6١‏ 

الاسترجاع الآلي أحادي اللغة - معالحة 
نصوص ١6١0١59‏ 

الأسترجاء الآ متعدد اللغات - معالحة 
نصوص ١6١٠0١59‏ 

26١٠05855349 Bibi استرجاع‎ 
١0 


استرجاع المعلومات» دراسات Y Y‏ 
استرجاع المعلومات» تجارب EA‏ 
2x) oM‏ ةد O‏ 


E EEN‏ اللات - غار 
VYP ATE Y Ga‏ 


الأسلوبية» دراسة 5٠‏ 

ANN VITA Y e (Qe) الأسلوبية‎ 
٦۷ الإعراب التركيبي - تحليل لغويٌ‎ 
١١۹۰۱۰۲ أقسام الكلمات‎ 

أقسام الكلمات» وسم ۷١-۷١ OW‏ 
آکونکورد» برنامج VY‏ 
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الألفباء الصوتية هه 

إم بي ثري - أشكال حفظ النصوص 
المنطوقة ٠١0‏ 

الانتتحال العلمي 25٠‏ اه 

أنظر أيضًا: السرقات العلمية 

AEN ANPA APEN 9044 yl 
Yo) 

الإنترنت» استثار ١١‏ 

آنتكونك» برنامج ۱۲۹۰۱۲۰ 

الأنطولوجيا d)‏ منطقيٌ للأشياء) 


101۹۸ 

الأنطولوجيا الدلالية ٠٠۸‏ 

الأنواع الأدبية 5 "ا 041 EAEAP‏ 
AAT‏ يش رشنل 

٠١١ (Y الأنواع اللغوية‎ 

الأهرام (صحيفة مصريةٌ) ۴۳١٠ء OY‏ 
Me‏ 

اتتلاف البيانات اللغوية (منظمة) 9 ١‏ 

0۷ (مواضفة قاس‎ ERST 

XP ON TET 

البطاقات المثقبة ۲۹ 

١50031١7 Y VY بکوالتر» برنامج‎ 

بنك الأشجار النحوي - معالجةٌ لغوية 
E‏ 


بنوك أشجار النصوص — معالجةٌ لغوية 
OU‏ للا VE‏ 

بي دي إف - حفظ نصوص ۰۱۰١ ۰۱۰٤‏ 
Wa‏ : 

VA CULO DU Ica coL JI 

VEYO £H YA ul alib - cul 

تجارب كرانفيلد - استرجاع معلومات 


£^ 

التجريد الخفيف للكلات = معالجة 
نصوص YoY‏ 

aav لقي‎ dies تيد كنت‎ 
١6١.١4 

تجزيء النصوص إلى هياكل من الكلمات 
- معالجة لغوية VY‏ 

التجمعات العنقودية» تحليل OU Y‏ 
0 5خ AT‏ 


التجميع - معالجة نصوص ٠١۸١٠١١‏ 
التحشية الأسلوبية VV VTA‏ 

Ve M التحشية الآلية‎ 

۷٠ ٦۸ التحشية البراجماتية‎ 

أنظر أيضًا: التحشية التداولية 

التحشية الخطابية M‏ 

V6 (VA التحشية الدلالية‎ 

٠١5 OW التحشية الصرفية‎ 
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التحشية الصرفية النحوية ٠١5‏ 

التحشية الصوتية “٦۷‏ 

التحشية العروضية W‏ 

التحشية القائمة بذاتها ۷۸ 

تحشية المدونات اللغوية 1۹ء ۳٦ء‏ 56- 
Vua‏ 

تحشية المدونات اللغوية» أنواع V*‏ 

تحشية المدونات اللغوية» طرق ٠١‏ 

تحشية المصاحبة المرجعية Vo TA‏ 

التحشية الموجهة نحو المشكلات VA‏ 

التحشية التحوية ١١5‏ 

التحشية اليدوية ۷١‏ 

التحشية شبه الآلية Ve‏ 

اة Abbas‏ لحري وى GAV‏ 
۹7۷۸ 

التحقق من النصوص 03« VV‏ 

۷١-۷۳ AA التحليل الإعرابي‎ 

تدريس وتعلم اللغات 279 ١75‏ 

ET 40 Ae «£V (£1 Re XI 
o10 


الترحمة الآلية ٠١١‏ 

الترحمة الآلية» متطلبات ١50‏ 

63 اكلام ا لعي ع ع 
١11785-87 5‏ 


١59 gus 

ات ی 

ce‏ المج اا ا 

ENE 

OE A amel 
To 01۰° VA CTV 

العف معان VY‏ 

VEL asi كرون سعدا‎ 

تشفير النصوص OT‏ 

تشومسكي (عالم لغة) AY‏ 

WA الفجزة ال‎ Ata 

التعبيرات الاصطلاحية "الا (EY .5٠‏ 
1^ 

التغطية» معيار £A‏ 

Yo 5 ۷۹ التقنين‎ 

تقنين ال مجاء ١6١‏ 

رسن الراك يك لقن بار 

VEA CY 58 التكشيف الال‎ 

التكشيف الدلالي الكامن £4 

AY NA OUO تكشيف الکلات المفتاحية‎ 
100.4! 

تكشيف الكلمات المفتاحية في السياق 2٠١‏ 
AN VA OY‏ 

تكشيف اللغة الطبيعية V4‏ 
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نسخ النصوص - طرق جمع 00 

١4 1 iy Led jab ال‎ 

BV RE ا‎ sad 

(05 Y Y YA CY. المكدرية‎ Luo eua 
(59 48Y AE YY OY 0 


VET NYE 


النصوص المنطوقة CTA‏ 00« كت CTV‏ 


E 
١55 01١١١ النصوصء تحليل‎ 

النصوص - طرق حفظ ٠١7 OUO‏ 
نظم استرجاع المعلومات Yo ELA EA‏ 
أنظر LAI‏ النظم الآلية للاسترجاع 


نظم استرجاع المعلومات» اختبار وتقييم 
£4 


١5١ الكلمات‎ i ais 

نيفاء برنامج 100 

AYE ء۱١۱١‎ VY Y Y هياكل الكلمات‎ 
MS 

الوثائق العربية ١6٠‏ 

الوثائق العربية» تكشيف واسترجاع VEA‏ 

ورشة العمل الدولية الأولى للمكتبات 
الرقمية في علم الموسيقى ١55‏ 

الوزن الصرفي ٠١١‏ 

الوزن (معيارٌ لغويٌ) ٠٠١١١٠٠١‏ 

الوسم الصرفي النحوي ۷١‏ 

الوسم القواعدي ٠٠١‏ 

وضع الكلمات في أسر لغوية ٦۷‏ 

الوطن (صحيفةٌ سعوديةٌ) Y‏ 


WA ل‎ ly 
٠١١ وكالة الأنباء الجزائرية‎ 
97 وكالة الأنباء السعودية‎ 
٠١١ وكالة الأنباء العراقية‎ 


وورد سميث» برنامج °( «A*‏ لماك 
١ل NPA ANE‏ 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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IP دراسات‎ 


المدونات اللغوية 
ودورها في معالجة النصوص العربية 

يعمل مركز الملك عبداللّه بن عبدالعزيز الدولي لخدمة اللغة العربية على تعزيز خدماته .3 
المجالات المتتوعة لخدمة اللغة العربية وعلومهاء إذ ينطلق من رؤية موحّدة 2 أعماله عامة - ومنها 
برنامج النشر - وذلك بأن يطلق برامجه ودراساته 4 المجالات التي تفتقر إلى جهود نوعيةء أو 
التي تحتاج إلى تكثيف العمل فيها . 

ويجتهد المركز 2 انتقاء الكتب التي تصدر ضمن هذه السلسلة, بأن تكون مضيفة إلى حقلها 
adl‏ 2 ومفتاحا للمشروعات العلمية والعمليةء ومحققة لتراكم yas‏ مثر. 

a وتم كيجا اشوا كله وهر‎ o Do ied etl E quac 56501 scale E ccs 
للطباعةء فإنها تدعو الباحثين كافة من أنحاء العالم إلى المساهمة .2 هذه السلسة؛ لتتكامل مع‎ 
سلاسل المركز العلمية الأخرى.‎ 

ويسعد المركز بالعمل مع المؤسسات والأفراد المختصين والمهتمين 2 خدمة لغتنا العربية. 
وتكثيف الجهود والتكامل نحو تمكين لغتناء وتحقيق وجودها السامي # مجالات الحياة. 


O‏ مركز الملك عبدالته بن عبدالعزيز الدولي 
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